지구촌 웹의 20% 운영, 작은 변수만으로 ‘엄청난 혼란’ 야기
“모든 것을 한 바구니에 담으려다 생긴 문제” 비유도
안전과 효율성 위한 자동화 ‘구성 파일’, 오히려 ‘오류’ 유발해

클라우드플레어 중단 사태를 시사하는 이미지. (출처=클라우드플레어)
클라우드플레어 중단 사태를 시사하는 이미지. (출처=클라우드플레어)

 [애플경제 이윤순 기자] 클라우드플레어 사태는 지구촌 웹 인프라의 독과점이 가져올 위험성을 다시금 절감하게 했다. 바로 얼마 전 AWS, MS 애저의 보안 사고로 인해 전세계 클라우드 시장이 혼란에 빠지기도 했다. 뒤를 이어 다시 인터넷망을 마비시킨 클라우드플레어 사태가 터진 것이다.

이로 인해 X, 챗GPT, 스포티파이, 캔바(Canva), 심지어 웹 중단 추적 서비스인 ‘다운디텍터’까지 모든 사이트가 오늘 아침까지도 몇 시간 동안 오류 메시지를 표시했다.

이에 대해 전문가들은 “모든 것을 한 바구니에 담으려고 하다 보니 문제가 발생한 것”이라고 비유하기도 했다. 인터넷 성능 모니터링 플랫폼인 ‘캐치포인트’는 “이번 사태가 기업들에 경종을 울리는 일련의 중단 사태 중 가장 최근의 것”이라고 짚었다.

이번 사고는 MS 애저, AWS 중단 사태와 불과 일주일 간격으로 발생했다. 클라우드플레어 사태는 독과점의 위험성을 여실히 보여주었다는 지적이다.

이는 본래 콘텐츠 전송 네트워크(CDN)를 통해 웹사이트를 온라인 상태로 유지하는 동시에, DDoS 공격 보호 및 DNS를 포함한 여러 기능을 제공한다. 작년에 전 세계 웹의 약 20%가 클라우드플레어 네트워크를 통해 운영되고 있다. 또한 ‘포춘’ 500대 기업 중 35%와, 수백만 개 사이트에 서비스를 제공하고 있다. 그야말로 전 세계 인터넷 시장을 장악하고 있다고 해도 과언이 아니다.

클라우드플레어는 빠른 성능과 보안 기능으로 전 세계 웹사이트 생태계에서 인기가 높다. 그러나 이번 중단 사태는 웹 인프라 산업이 얼마나 특정 기업에 집중되었는지를 다시 한번 실감케한다.

이런 현실은 클라우드 시장과 흡사하다. AWS 서비스 중단으로 보안 메시징 앱 ‘시스널’(Signal)이 마비되었다. 그럼에도 불구, 업체들은 이들 주요 클라우드 서비스 제공업체(빅3 등)를 이용할 수밖에 없었다. “전체 스택을 사실상 3~4개 업체가 소유하고 있다.”는 것이다.

소수의 웹 인프라 제공업체에만 의존하는 현실도 이와 다를 바 없다. 많은 기업들도 이번에 발생한 일련의 사태로 인해 ‘백업’ 계획이 필수적이라고 생각하고 있다. 앞서 ‘캐치포인트’는 “이번과 같은 사태는 앞으로도 계속될 것이고, 앞으로도 더 자주 발생할 것”이라며 “그 결과 피해 범위는 계속 확대될 수 밖에 없다”고 우려했다. 그러면서 “문제는 이에 대해 어떤 조치를 취하고 있느냐는 것”이라고 했다.

앞서 마이크로소프트와 AWS는 서비스 중단의 원인을 웹사이트 도메인 이름을 IP 주소로 변환하는 시스템인 DNS 관련 문제와 연관시켰다. 그러나 클라우드플레어는 ‘단일 파일’의 문제점에서 원인을 추적했다. 클라우드플레어측은 사고 직후 “근본 원인은 위협 트래픽을 관리하기 위해 자동으로 생성된 구성 파일”이라고 밝힌 바 있다. 즉, 파일이 예상 항목 크기를 초과할 정도로 커졌고, 여러 클라우드플레어의 트래픽을 처리하는 소프트웨어 시스템 간에 충돌이 생긴 것이다.

이런 ‘단일 파일’ 문제로 인터넷 전체가 마비될 수 있다는 것은 도저히 이해하기 힘든 것처럼 보일 수 있다. 그러나 클라우드플레어처럼 대규모 독점 기업이라면 충분히 있을 수 있는 일이다.

세계 최대 사이버 보안 연구 및 교육기관 SANS 연구소는 ‘더 버지’에 “클라우드플레어처럼 대규모 인프라를 (독과점) 운영할 경우, 사소한 변화조차도 엄청난 결과를 초래할 수 있다”고 분석했다. 즉, 이런 인프라(인터넷) 플랫폼은 속도를 기반으로 설계되었다. 그 때문에 의사 결정을 지연시키거나 중단시키는 모든 변수나 변화 요인이 빠르게 확산될 수 있다. 특히 “고성능 환경에서는 ‘밀리초’ 단위의 지연이 트래픽을 완전히 중단시킬 수도 있다”는 지적이다.

클라우드플레어에 따르면 이번 사고 원인은 ‘구성 파일’이었다.이는 라우팅 보안 정책, 부하 분산 결정, 그리고 트래픽이 전 세계적으로 분산되는 방식을 결정한다. 즉, 파일 크기가 갑자기 커지면 해당 파일을 사용하는 시스템 내에서 오류가 생긴다. 구문 분석 속도가 떨어지거나, 메모리 문제, CPU 경합, 또는 논리 오류가 발생할 수 있다.

앞서 AWS 사태 역시 그랬듯이, 이런 대규모 서비스 중단 사태를 초래한 일련의 문제의 원인으로 ‘잘못된 자동화’가 지목되기도 한다. 이는 앞으로도 계속 발생할 수 있는 오류의 원인이 될 수도 있다는 지적이다.

저작권자 © 애플경제 무단전재 및 재배포 금지