화재 징후 사점 감지 기능 미흡, 이중화 장치 부족, 전력 시스템 부실 등 지적
에스케이 씨앤씨, 카카오, 네이버에 이행결과 및 향후 계획 1개월내 제출 요구
[애플경제 김향자 기자] 지난 10월 15일 발생한 카카오 데이터 센터 화재에 대한 정부의 조사 결과가 6일 발표되었다. 과기정통부와 방송통신위원회, 소방청은 이날 당시 있었던 에스케이 씨앤시 판교 데이터센터 화재와 이로 인한 카카오·네이버 등 부가통신서비스 장애에 대한 조사 결과를 공식적으로 밝혔다.
앞서 토요일이었던 지난 10월15일 에스케이 씨앤씨 판교 데이터센터 지하 3층 배터리실에 화재가 발생했으며, 당일 23시 45분에 완전 진화(소방청 확인시간 기준)되었다. 그러나 화재 진압, 건물 전력 차단 등으로 인해 카카오, 네이버 등의 통신망에 장애가 발생했다. 판교 데이터센터는 화재진압 후 순차적으로 전력공급을 재개하여 10.19일 05시경 비로소 전력공급이 정상화되었다.
당시 서비스 장애로 인해 이용자 피해가 가장 광범위했던 카카오의 경우 주요 서비스의 핵심 기능을 순차적으로 복구하고 일부 서버를 이전하는 등의 조치를 통해 20일 23시경 정상화되었다. 장애 복구에 무려 127시간 33분 소요된 셈이다. 네이버의 경우는 일부기능 오류가 발생하였으며 주요 서비스·기능 대부분은 약 20분 ~ 12시간 내에 정상화되었다.
당구이 사고를 조사·분석한 결과에 따르면 화재는 당일 23시 45분에 진화되었으며, 전력은 19일 05시경 정상화되었다. 에스케이 씨앤씨 판교 데이터센터의 경우 배터리 온도 등을 감시하는 시스템(BMS)을 갖추고 있었으나, 화재 발생 직전까지 화재에 대한 이상징후가 나타난 바는 없었다. 즉, 센서를 통해 배터리 내 온도·전압 등을 주기적으로 확인하는 시스템(Battery Monitoring System)은 있었다.
그러나 BMS에서 화재 징후가 없었던 상황에서, 지하3층 내의 배터리실에서 발화가 시작되었다. 배터리실 내 상부에 위치한 전력선과 천장공간이 미분리된 격벽 공간에 있었던 일부 무정전전원장치가 화재로 인한 열 등(추정)으로 손상되어 작동이 중지되었다. 그러나 진압을 위한 살수를 할 경우 누전 등 2차 피해가 발생할 소지가 커서 전력을 차단했던 것으로 밝혀졌다. 한편, 화재 발생 후 가스 소화 장비가 작동하였으나, 가스 소화가 어려운 리튬이온 배터리 화재 특성 상 초기 진압에 한계가 있었다. 더욱이 에스케이 씨앤씨는 2016년 리튬이온 배터리 설치 이후 현재까지 특화된 방화조치는 한 적이 없음이 밝혀지기도 했다.
즉, 리튬이온 배터리가 일부 무정전 전원장치(UPS)와 물리적으로 완벽히 분리되지 않은 공간(천장 공간이 미분리된 격벽)에 배치되어 있어, 화재 열기 등으로 무정전 전원장치가 작동이 중지되었고, 일부 전원공급도 중단되었다. 이로 인해 배터리 상단에 포설되어 있던 전력선이 화재로 인해 손상되었고, 화재 진압을 위한 살수 시 누전 등 2차 피해 우려로 전체 전력을 차단하게 된 것이다.
각 무정전 전원장치 집단이 정해진 서버에 이중화된 형태로 전원을 공급하는 체계가 갖춰져 있긴 했다. 그러나 화재 등으로 특정 공간의 무정전 전원장치에 동시 장애 발생 시에는 그 무정전 전원장치들로부터 전력을 공급받는 서버에 대한 전력 중단이 불가피한 구조였다. 또한 살수가 필요한 상황에서 살수로 인한 2차 피해가 우려되는 특정 구역 및 차단 스위치를 단시간 내 식별할 수 없어 선별적 차단 조치가 이뤄지지 못하였다. 이 때 화재 대비 지침은 있었으나 살수 상황, 발화 구역 등 실제 화재상황 수준까지 반영한 세부 대응계획 및 모의훈련은 없었다.
이로 인해 카카오 계열사의 주요 서비스(카카오톡, 카카오티 등)가 최대 127시간 33분간 먹통이 되는 사태가 발생했다. 애초 카카오는 서비스 기능을 5개의 레이어로 구분하고 판교 데이터센터(Active 역할)와 기타 센터 간 동작(Active)-대기(Standby) 체계로 이중화했으나, 이번 사고 시 대기(Standby) 시스템이 제대로 동작하지 못한 것으로 드러났다. 5중 레이어는 애플리케이션, 서비스 플랫폼, 운영 및 관리도구, 데이터베이스, 기반시설 설비 레이어로 구분된다.
한편 동작-대기 시스템은 동작 서버 작동 불능시 대기 중인 대기 서버를 가동하여 서비스 제공하는 방식이다. 이날 대기 서버를 동작 서버로 만들기 위한 권한관리 기능인 ‘운영 및 관리도구’가 판교 데이터센터 내에서만 이중화되어있었다. 이는 서비스의 가동과 운영 등을 제어하는 기능과 이러한 기능에 대한 접근 및 관리를 수행하는 도구다. 즉, 다른 데이터센터에 이중화되어있지 않아, 판교 데이터센터의 동작 서버 작동 불능 시 서비스 장애 복구가 지연된 것이다.
또한, ‘애플리케이션’, ‘서비스 플랫폼’ 레이어에서도 이미지·동영상 송수신 시스템 등 일부 서비스 구성 요소가 데이터센터 간 이중화되어 있지 않아 복구에 상당 시간이 소요된 원인이 되었다. 특히 카카오톡, 다음 등 카카오 서비스 대부분의 핵심기능이 판교 데이터센터에 집중되어 있어 판교 데이터센터 사고 시 카카오 대부분 서비스가 즉각 영향을 받게 되었다. 또 여러 서비스의 구동 초기단계부터 필요한 ‘카카오인증’과 같은 핵심기능도 판교 센터에 집중되어, 여러 서비스 전반에 광범위한 영향을 미친 원인이 되었다.
카카오는 장애 탐지·전파·복구 전반에 걸쳐 기본 절차를 정의하고 있으나, 각 단계별 체계화 및 자동화가 미흡했던 것으로 나타났다. 사내 전파 수단 준비가 미흡하거나, 이용자 공지채널(트위터, 페이스북)의 낮은 접근성 등이 대표적인 사례다. “일부 서버, 연결망 등 오류에 대비한 재난 대비 훈련 등 조치는 하였으나, 1개 데이터센터 전체가 일시에 불능이 되는 대형 재난상황에 대해서는 대비가 부족하였다.”는 지적이다.
이로 인해 카카오는 10.19. ~ 11.6. 간 10만 5,116건의 피해를 접수하였으며, 이중 유료 서비스에 대한 피해는 14,918건, 금전적 피해를 언급한 무료 서비스는 13,198건이 접수되었다. 네이버는 뉴스·쇼핑 등의 일부 기능의 오류, 즉 일부 기사 댓글 이용 불가 등과 같은 사태가 발생했다. 이들 주요 서비스·기능은 짧게는 약 20분, 길게는 무려 12시간 후에 정상화되었다. 다만 블로그 등 일부 서비스의 일부 기능 오류는 이보다 더 시간이 소요된 경우가 있었다. 네이버는 데이터센터 간 이중화 조치를 하여 서비스 중단은 없었으나, 타 데이터센터로 서비스 전환 과정 등에서 일부 기능에 오류가 발생하였다. 대부분 기능 오류의 경우 다른 기능에 비해 상대적으로 낮은 복구 우선순위, 복구하는 데이터의 무결성 확인 등의 이유로 복구에 시간이 소요되었다.
정부는 “이번 사고로 국민이 입은 피해의 신속한 복구와 재발 방지를 위해, 각 사업자의 선제적인 조치가 필요하다”면서 “에스케이 씨앤씨와 카카오, 네이버 3사에게 1개월 이내로 주요 원인에 대해 개선 조치하거나 향후 조치계획을 수립하여 방송통신재난 대책본부에 보고하도록 행정지도를 하고 있다”고 밝혔다.
우선 에스케이주식회사 씨앤씨에 대해선 데이터센터 화재 예방·탐지를 위해 배터리감시시스템 계측정보 등 관리 강화 방안 및 현 배터리 감시 시스템 외의 다양한 화재감지 시스템 구축 방안을 요구했다. 또 리튬이온 배터리 화재 시 필요한 소화설비 등의 구축 또는 불가능할 경우 대안도 촉구했다.
또한 데이터센터 전력공급 생존성 확보를 위해 배터리와 기타 전기설비 간 물리적 공간을 분리하고 배터리실 내에 위치한 전력선을 재배치하여 구조적 안정성을 확보하거나, 대안 조치를 요구했다. 화재 등 재난 발생 구역의 전력을 개별 차단할 수 있는 방안을 마련하고 재난 현장에 직접 진입하지 않고도 해당 구역의 전력 차단 등 조치를 할 수 있도록 다양한 방안도 촉구했다. 현실적인 재난대응 각본 개발 및 세부 훈련 계획 수립하여 모의 훈련을 실시하고 결과 보고를 요구했다.
㈜카카오에 대해선 우선 ‘서비스 다중화’를 촉구했다. 즉 카카오 서비스 장애 복구 지연의 핵심 원인인 ‘운영 및 관리도구’에 데이터센터 간 동작(Active)-동작(Active) 등 매우 높은 수준의 다중화를 적용할 것을 요구했다. 또 애플리케이션 간 상호의존도가 높은 기능(예 : 인증 등), 서비스의 핵심적 기능(예 : 메신저의 메시지 수발신) 등 핵심 기능에 대해서는 우선순위, 중요도 등을 고려하여 현재보다 높은 수준의 분산 및 다중화를 적용할 수 있는 방안을 수립할 것을 요구했다.
이와 함께 재난대비 훈련 등도 강화할 것으로 요구했다. 데이터센터 전소, 연결망 마비 등 최악의 상황을 대비한 훈련 계획을 수립하고 모의 훈련을 실시할 것과, 신속한 장애 복구를 위해 서비스별 복구목표 설정, 상시 대응조직 구성, 장애 각본별 복구방안을 수립할 것을 촉구했다. 또 장애 탐지-전파-복구 전 단계의 복구체계를 재점검하여 자동화 기능 요소 발굴 등 개선방안도 수립할 것을 요구했다.
이와 함께 이용자 고지 및 피해 구제책도 마련할 것을 요구했다. 즉 서비스 장애 발생 시 다양한 방식으로 신속하게 이용자에게 고지할 수 있는 체계를 구축하고, 이번 장애와 관련된 국민 피해를 구제하기 위한 원칙과 기준을 설정하고, 보상 계획을 수립할 것을 요구했다.
네이버㈜에 대해서도 한층 철저한 장애 예방과 신속 복구를 위해 서비스별 복구 목표, 장애 각본별 복구 방안 등을 재점검하여 개선방안을 마련하고, 주 데이터센터 전소 등 상황을 가정하고 모의 훈련을 실시하여 보고할 것을 요구했다.
