‘생성AI’시대의 또다른 ‘적(敵)’, 데이터센터 ‘블랙아웃’
정전, 화재, 냉각시스템 이상, 기상이변, 프로세서 고장 등 원인 “사고 발생시 거액의 복구비용, 신뢰도 하락 등 피해 막심” 각국 기업들 예방책과 기술, ‘물리적 이중화 시스템’ 등 부심
[애플경제 전윤미 기자] 생성AI 시대에 데이터 수요가 폭주하면서 데이터센터도 날로 증가하고 있다. 그런 가운데 정전이나 냉각 시스템 이상 등으로 데어터센터의 가동이 중단되는 블랙아웃 현상이 큰 문제로 대두되고 있다. 그런 사고가 있을 때마다 이를 복구하고 정상화하기 위해 큰 비용이 드는 것은 물론, 그로 인한 네트워크 손상 등 피해도 엄청나기 때문이다.
국내에서도 카카오, KT 등이 화재나 정전 등으로 인해 데이터센터의 가동이 중단되는 사태가 발생해 큰 혼란을 겪은 바 있다. 해외에서도 이는 갈수록 심각한 문제가 되고있어 각국은 이에 대한 철저한 사전 대비책과 관련된 기술과 시스템 완비에 고심하고 있다.
데이터 센터가 증가하면서 블랙아웃 사례도 증가할 것으로 예상할 수 있다. 물론 글로벌 연구기관 ‘업타임 인스티튜트’의 새로운 연구에 따르면 지난 몇 년 동안 가동 중단의 빈도와 심각도가 생각보다는 크게 증가하진 않은 것으로 나타났다.
많은 기업들, 여전히 ‘이중화’에 소홀
그럼에도 불구하고 해당 연구소의 2023년 데이터 센터 조사에 따르면, 데이터 센터 운영자의 절반 이상(55%)이 지난 3년 동안 중단을 겪었다고 답했습니다. 이런 추세는 수 년 간 꾸준히 이어지고 있다. 또 10건 중 1건의 경우 심각한 정전사태로 인해 발생한 것으로 나타났다.
‘업타임’ 연구소는 “이에 대부분의 기업들과 조직은 ‘물리적 인프라 이중화’에 날로 많은 투자를 하고 있다”고 강조했다.
연구소는 “산업계 전반에 걸쳐 분산 및 소프트웨어 기반의 탄력적인 모델로 이에 대처하고 있다”면서도 “만일의 사태에 대비한 ‘이중화’ 시스템을 유지하고 늘리는 것이야말로 대부분의 기업들에게 가장 우선적인 과제로 남아 있다.”고 짚었다.
이에 따르면 여전히 많은 기업이나 단체, 클라우드 제공업체들이 이처럼 사고에 대비한 가장 기본적인 ‘이중화’를 소홀히 하고 있는 것으로 나타났다. 조사 대상 기업 등의 약 3분의 1만이 냉각시설과 전력 이중화 수준을 높이는 반면, 나머지는 이를 제대로 구비하지 않고 있는 실정이다.
단 몇 분의 1초라도 전력이상, ‘치명적’
만약 가동 중단 사태가 일어날 경우, 그에 따른 복구비용 등은 엄청나다는 지적이다. ‘업타임’ 연구소에 의하면, 가장 최근의 경우 심각한 가동 중단이 발생하면, 이를 복구하는데만 최소한 1억4천만원(미화 10만달러 이상)이 드는게 평균이고, 그 중 16%는 무려 15억 이상의 비용을 실제 지불한 경험이 있는 것으로 나타났다.
현재 관련 업계 자문 회사들에 의하면 기업과 소비자 모두에게 심각한 재정적 손실을 초래하는 심각한 IT 중단사태나 각종 사고가 매년 전 세계적으로 평균 20건 이상 발생하는 것으로 추산되었다.
특히 전력 문제는 데이터 센터 사고의 핵심 요인이다. ‘업타임’ 연구에 따르면 현장에 대한 배전 사고가 심각한 정전의 가장 일반적인 원인인 것으로 나타났다. 즉 “IT 하드웨어의 경우는 단 몇 분의 1초라도 전압 변동이나 완전한 전력 손실과 같은 심각한 전력 교란이 용납되지 않는다”고 경고했다.
이에 비해서 냉각 시스템 고장은 그나마 IT시설과 장비가 좀더 오랫동안 버틸 수는 있다. 연구에 따르면 IT 기반 장애가 이로 인해 자주 발생할 수 있지만, 냉각 시스템 이상으로 인한 특정 애플리케이션이나 데이터 세트에 대한 영향은 덜 심각하다는 분석이다.
제3자인 클라우드 제공업체와의 문제로 인해 이런 사고가 일어나는 경우도 점점 커지고 있다. 이는 “SaaS 및 클라우드 제공업체에 대한 의존도가 높아지는 것을 반영한다”는 것이다. 이 밖에도 네트워크 및 화재 등도 요인으로 꼽힌다.
“‘인간의 실수’도 큰 요인” 지적
그러나 ‘인간의 실수’도 늘 문제로 지적되고 있다. 즉, “열악한 교육, 허술한 절차, 직원들의 피로 누적, 관련된 장비 작동의 복잡성 등 여러 요인의 결과”일 수 있다는 것이다. ‘업타임’은 “지난 25년간의 데이터를 분석해보면, 직접적이든 간접적이든 사람의 실수가 모든 사고의 2/3~4/5를 차지하고 있다”고 추정했다.
즉, 직원들이 정상적인 절차를 준수하지 않거나, 아니면 방재를 위한 절차 자체가 부적절하기 때문이란 얘기다. 설문 조사 응답자 5명 중 4명은 “개선된 관리, 프로세스 및 구성을 통해 심각한 가동 중단을 예방할 수 있었다”고도 했다. 그래서 “교육과 프로세스 점검을 통해 블랙아웃을 줄일 수 있는 가능성과 기회가 가장 크다는 사실을 시사한다”고 밝혔다.
또한 코로나19 팬데믹의 여파도 데이터센터 업계에 지속적인 영향을 미치고 있다. 예를 들어 공급망 중단으로 인해 네트워크 순환이 계속 느려지고, 이로 인해 많은 조직이 유지 관리나 인프라 업그레이드를 미루는 경우가 많다. 이는 곧 블랙아웃을 유발할 가능성이 ㅋ다는 지적이다.
역설적으로 활발하고 역동적이며 재생 가능한 전력망으로의 전환이 오히려 전력망에 대한 신뢰성을 감소시킬 수 있다는 지적도 있다. 예를 들어 무정전 전원 공급 장치나 발전기가 그리드 중단에 응답하지 못할 때 정전이 자주 발생한다. 이는 앞으로도 그런 현상이 빈발할 것으로 예상된다. 또 기후 변화로 인해 더욱 악화된 기상 이변도 지난 몇 년간 데이터 센터 가동 중단을 유발했다는 보고다. 그래서 “선제적 조치가 필수적으로 이뤄질 때 비로소 날로 심각해지는 블랙아웃의 위험을 줄일 수 있을 것”이란 주문이다.