과기정통부, "개선 및 시정결과 제출"요구
[애플경제 김미옥 기자] 과기정통부가 최근 연속 3차례나 장애를 일으킨 카카오에게 1개월 이내 개선 조치계획을 수립하여 제출하고, 3개월 이내에 시정결과를 제출하도록 할 계획이라고 밝혔다.
과기정통부는 31일 카카오톡 서비스 장애의 원인 및 대응·복구현황에 대한 카카오의 통신재난관리계획의 이행 여부를 점검한 결과를 공개했다.
앞서 카톡은 5월 13일, 20일, 21일 연속으로 장애를 일으켰다. 이에 과기정통부는 통신재난관리심의위원회를 열어 카카오 장애 원인을 규명하고, 시정조치 요구사항을 심의·의결했다.이에 따르면 첫 번째 장애로 인해 카카오톡 이용자의 약 80%가 카카오톡 메시지 발신 지연과 실패로 불편을 겪었을 것으로 추정된다. 당시 장애의 원인은 카카오톡 서비스가 운영되고 있는 데이터센터 서버의 파일을 업데이트하는 작업 중 기존 파일을 삭제하는 과정에서 오류가 발생한 것으로 밝혀졌다.
5월 13일 장애는 발생 직후 서비스 이중화와 여유 서버를 가동, 6분 만에 서비스를 복구했다. 점검 결과, 카카오는 실제 작업을 진행하기 전에 사전테스트를 실시하지 않아 발생 가능한 오류에 대비하지 못한 것으로 드러났다.
두 번째 장애의 경우 당시 카카오톡 이용자의 약 80%가 메시지 수발신 실패로 불편을 겪었을 것으로 추정된다. 네트워크 부하 분산을 위한 내부 시스템 기능개선 작업 중 발생한 오류가 원인으로 꼽혔다.
카카오는 이에 대해 이전 장애와 동일하게 서비스 이중화를 가동, 6분 만에 서비스를 정상화했다. 카카오는 실제 작업을 진행하기 전에 사전테스트는 실시했으나, 개발 결과물의 테스트 환경이 실제 카카오톡 운영환경과 차이가 커 미리 장애 가능성을 식별하지 못한 것으로 확인되었다.카카오톡 로그인 실패 및 모바일용 카카오톡 메시지 수발신 지연이 있었다. 특히, 서비스 이용률이 높은 아침 출근시간에 54분간 장애가 발생하여 이용자들의 불편이 컸다.
세 번째 애는 두 번째 장애를 일으킨 서버의 오류를 미해결한 상태에서 동일 데이터센터에 있는 다른 서버에 Java 프로그램 업데이트를 진행한 것이 원인이었다.
카카오는 장애 탐지 즉시 자동화 도구 등을 이용해 복구를 시도하는 것과 동시에 장애 원인 분석 및 조치방안을 검토한 후 서비스 이중화를 가동하고, 추가적인 수동 복구 작업을 거쳐 서비스를 정상화했다. 점검 결과, 카카오는 내부적으로 작업 통제를 하지 않아 전날 장애가 발생한 서버의 오류를 미해결한 상황에서 통제없이 새로운 작업을 진행하여 오류가 발생한 것으로 확인되었다.
이에 과기정통부는 이번 장애의 원인 및 대응·복구현황에 대한 카카오의 2024년 통신재난관리계획의 이행여부를 점검하고 미흡사항에 대해 시정을 요구했다. 카카오는 1개월 이내로 시정 요구사항에 대한 개선 계획을 마련하여 제출하고, 3개월 이내에 시정한 결과를 과기정통부에 제출키로 했다.
과기정통부에 따르면 앞으로 카카오는 주요 작업 전 사전테스트 체계를 강화해야 한다. SW 업데이트, 시스템 교체, 신규 서비스 출시(배포) 등 주요 작업 전에 발생할 수 있는 오류를 사전 검증하기 위해, 사전테스트 실시 대상 작업과 수행해야 할 테스트 범위(단계) 등에 대한 구체적인 내부지침을 보완해야 한다. 또 사전테스트 환경을 실제 운영환경과 유사하게 구성하도록 3개월 이내에 고도화 계획을 마련하여 제출하도록 했다.
주요 작업에 대한 승인·통제가 가능하도록 작업의 성격이나 작업 규모 등을 고려한 작업관리프로세스를 정립하여 작업관리 전반을 체계화하도록 했다. 카카오가 당초 2024년 통신재난관리계획에 반영한 작업관리시스템의 도입을 계획대로 차질 없이 추진하도록 했다.
또 재난·장애 발생시 신속한 대응과 의사결정을 할 수 있도록 장애유형별·부서별 역할(전사 전파, 복구물자·인력투입, 이용자 고지 등)을 반영하여 매뉴얼을 보완하도록 했다. 이를 통해 기술적 오류방지 조치, 트래픽 집중·증가 대비 조치 등을 위해 형식적인 ‘서비스 안정성 자체지침’을 구체적으로 보완토록 하는 내용이다.
또한 모니터링 시스템 고도화를 통한 장애 탐지능력을 강화하도록 했다. 현재 서버, 네트워크, 서비스 등 개별 운영 중인 모니터링 체계를 보완, 재난총괄부서에서 재난·장애 시 개발부서와 협업하여 전파하고 총괄 대응할 수 있도록 했다. 이를 위해 3개월 이내에 통합 모니터링 시스템 구축 계획을 수립하여 제출하고, 계획대로 추진할 것을 요구했다.
장애 원인분석과 사후관리 체계화도 요구했다. 유사한 장애가 재발하지 않도록 카카오가 운영 중인 ‘장애 회고 프로세스’를 표준화·공식화하고, 이번 장애의 복구·재발 방지방안을 포함한 전사 차원의 중·장기적 장애 재발 방지대책을 마련하고, 체계적으로 그 결과를 관리할 필요가 있다는 판단이다.
또한 장애 사실을 이용자에게 고지하는 시스템을 개선토록 했다. 장애 탐지 및 기업 내에 전파 후 이용자 고지 담당부서에서 즉시 대응 조치할 수 있도록 장애 고지 기준 및 시점에 대한 지침을 마련하도록 했다. 이용자가 보다 더 빠르고 쉽게 장애사실, 장애복구 여부 등을 인지할 수 있도록 카카오 고객센터 홈페이지 외에도 SNS 등 다양한 채널을 활용하여 고지 채널 및 고지 방법을 보다 실효성 있게 개선하도록 한 것이다.
