[현장연결] '행정전산망 먹통' 발생원인·후속대책 발표

  • 6개월 전
[현장연결] '행정전산망 먹통' 발생원인·후속대책 발표

정부가 지난주 지자체 행정망의 장애가 발생한 원인이 무엇인지 현재까지 확인된 내용에 대해서 발표합니다.

후속 대책도 이야기 하는데요.

현장 연결합니다.

[송상효 / 지방행정전산서비스 개편 TF 공동팀장]

안녕하십니까.

지방행정 전산 서비스 개편 TF의 공동팀장을 맡고 있는 송상효 교수입니다.

먼저 원인 분석반 구성 및 활동에 대해서 말씀드리도록 하겠습니다.

원인 분석반은 총 29명으로 구성하였습니다.

LG CNS, 네이버 클라우드, 소울시스템즈 등 외부 전문가 16명과 국가 정보 자원 관리원 통신 운영, 보안 부서의 소속 인력 13명으로 구성하였습니다.

특히 외부 전문가 중 11명은 장애 발생 초기부터 복구에 참여한 인력들로 구성함으로써 업무 연속성을 확보할 수 있었습니다.

이번 원인 분석에 한 가지 아쉬웠던 것은 장애 발생일 이후 이번 원인 분석 결과를 발표하기까지 기간이 국민께서 생각하신 시간보다 오래 걸렸다는 점입니다.

이번 장애가 가지는 사안의 중요성 그리고 관련 시스템의 복잡성을 감안했을 때 종합적으로 검토할 필요가 있었고 충분한 검증을 통해 신중하게 결과를 설명할 필요가 있다는 점을 양해 부탁드립니다.

원인 분석 결과에 대해서 말씀드리도록 하겠습니다.

먼저 장애 당시 남겨진 로고를 분석한 결과 장애 원인이 네트워크 영역에서 발생하였을 확률이 높은 것으로 추정하였습니다.

왜냐하면 비정상 상태가 통합 검증 서버의 네트워크 세션에서 확인되고 네트워크 장비 중의 하나인 L4 장비의 OS 업데이트가 전일 있었으며 L4 장비에서 비정상 상태로 전환되는 로그가 다수 반복되는 것을 확인되었기 때문입니다.

이와 더불어 네트워크 영역에서 문제가 나타났다 하더라도 앞뒤로 연결된 장비나 시스템이 영향을 미쳤을 수도 있습니다.

그렇기 때문에 원인 분석반은 네트워크 장비뿐 아니라 서버 로그까지 분석 대상에 포함시켰으며 이로 충분한 검토와 테스트를 진행하였습니다.

한편 해킹에 대해서도 모든 가능성을 열어놓고 외부에서의 공격 내부에 심어놓은 스파이웨어 등 다양한 상황을 가정하여 보안 당국과 함께 확인하였습니다.

최근 해외에서 나라장터 시스템에 집중 접속하여 일시적인 과부하로 인한 일부 장애가 발생했었었는데 이후 보안당국과 함께 전체 시스템에 대해 다시 한번 점검을 실시하였습니다.

현재까지는 해킹 징후가 보이지 않았습니다만 앞으로도 해킹에 대해서 유의하여 관리하도록 하겠습니다.

다음은 장애를 일으킨 원인입니다.

네트워크 장비를 대상으로 하는 성능 측면 점검의 경우에는 구간을 나누어 반복적인 부하 테스트를 진행하였고 장애 및 접속 지연이 발생한 영역을 확인하며 장애 유발의 원인을 좁혀나가는 방식을 사용하였습니다.

이와 같은 분석을 반복하여 수행한 결과 네트워크 장비인 라우터에서 패킷을 전송할 때 용량이 큰 패킷이 유실되는 현상을 관찰하게 되었는데 특히 1500바이트 이상의 패킷은 90%가 유실되었습니다.

이 현상의 원인은 라우터 장비의 케이프를 연결하는 모듈에 있는 포트의 일부가 이상이 있었기 때문입니다.

이렇게 패킷이 유실됨으로써 통합 검증 서버는 라우터로부터 서비스 제공에 필요한 패킷을 정상적으로 수신할 수 없게 되었고 지연이 중첩되어 작업을 정상적으로 수행할 수 없는 상황에 이르게 된 것입니다.

이는 로그에서도 확인할 수 있었습니다.

이해를 돕기 위해 네트워크 구성도를 이용해 부연 설명을 드리도록 하겠습니다.

네트워크 구성도는 오른쪽에 있습니다.

이쪽에 있고요.

일단 국가정보원 관리원은 11월 18일 04시에 정상 작동하지 않았던 L4 장비를 고성능 장비로 교체하였고 교체한 상태에서 기능 및 부하 테스트를 통해 안정성을 점검한 후 정부24 서비스를 오전 9시에 재개하였습니다.

그러나 트래픽이 많지 않은 주말이라 서비스는 정상 작동하였지만 일부 기능의 지연 현상은 발견하게 되었습니다.

지연이 발생한 기능들은 주로 광주센터에 위치한 여러 시스템과 연계된 것임을 확인하였고 대전센터의 라우터 중 광주센터와 연결된 부분을 상세히 분석한 결과 해당 포트에 불량이 발견되어 11월 19일에 7시에 다른 포트로 연결을 전환함으로써 해당 지연 현상을 해소하였습니다.

이와 같은 작업에도 불구하고 위의 불량 외에 다른 오류가 있었을 가능성도 배제할 수 없어 서버에 발생한 로고를 분석하고 다양한 네트워크 구간에 장비의 이상을 검증하는 테스트 과정을 거쳤습니다.

통합인증 서버가 존재하는 존에 함께 운영되는 서버는 물리 서버 150여 대, 소프트웨어는 각각 웹 서버 19식, 와스 서버 50식, DBMS 56식이 있었습니다.

특히 통합인증 서버는 다수의 장비와 연계되어 서비스되고 있는 상황이라 검증 대상이 많았습니다.

통합 인증 서버가 경유하는 네트워크 장비의 경우 같은 존 내에서만 라우터 장비 2대, 및 L4 장비 4대, 국가 정보 통신망 영역에 라우터 장비 8대가 있었습니다.

이 구간에서 이상 유무를 확인하기 위해 각 장비에서 발생 장애 시점을 로그 수집하여 분석하였습니다.

또한 앞서 설명드린 장애 및 접속 지연에 발생한 영역을 확인하며 장애 유발 원인을 좁혀나가는 위를 네트워크와 테스트의 경우 3차에 걸쳐 총 8회.

1차 4회, 2차 2회, 3차 2회 수행하였습니다.

원인 분석을 위해 수행한 부하 테스트의 시나리오는 다음과 같습니다.

통합 인증 서버로의 트래픽 유입량을 변경하는 경우 L4 장비를 경호하지 않는 경우.

캐핏 표기를 변경하는 경우, 서비스 사용자 수를 500명 또는 1500명 등으로 다양하게 변경하는 경우, 장비를 경유하는 네트워크 대역폭을 변경하는 등의 다양한 시나리오 상황에서 네트워크 영역에서의 접속 지연 및 이상 유무를 확인하였습니다.

이와 같이 확인 과정을 거쳤으나 앞에 말씀드린 라우터 장비의 불량 이외에는 다른 이상 현상을 발견할 수는 없었습니다.

확인된 사실을 신속히 발표했어야 하나 결과에 대한 신뢰를 높이기 위해서 명확한 검증 과정이 필요하였고 이에 따라 상당한 시간이 소요되었습니다.

참고로 지금까지 설명드린 결과에 대한 제 확신을 가지기 위해...

추천