해커보다 몇 배 빠르게 제로데이 취약점 간파, 식별
구글 ‘빅 슬립’, ‘Sec-Gemini v1’, ‘OSS-Fuzz’ 등 ‘제로데이 공격’ 차단
MS ‘시큐리티 코파일럿’도 리눅스 부트로더인 GRUB2의 다수 취약점

일부 AI모델은 제로데이 취약점을 사전에 간파, 식별해낼 수 있다. (사진=펙셀)
일부 AI모델은 제로데이 취약점을 사전에 간파, 식별해낼 수 있다. (사진=펙셀)

[애플경제 김홍기 기자] 해커보다 2배나 빠르게 제로데이 취약점을 간파해내는 AI모델들이 새삼 눈길을 끌고 있다. 구글의 빅슬립(Big Sleep)은 해커가 악용하기 전에 취약점을 먼저 발견해내고, 마이크로소프트의 ‘시큐리티 코파일럿’(Security Copilot) 역시, GRUB2 취약점을 11개 발견했다.

이같은 사실은 AI 덕분에 해커들이 실제 사이버 공격을 개시하기 전에 미리 차단할 수 있다는 기대를 높이고 있다. 즉, 인간 해커보다 제로데이 취약점을 먼저 발견해내는 것이다.

구글의 AI 에이전트 ‘빅 슬립’은 사이버 범죄자가 심각한 취약점인 CVE-2025-6965를 실제 공격에 악용하기 전에 식별해냈다. 마이크로소프트의 ‘시큐리티 코파일럿’은 공격자가 리눅스 시스템 전반의 ‘시큐어 봇’ 보호 기능을 우회할 수 있도록 하는 ‘부트로더’ 취약점을 연이어 식별해냈다. 그야말로 AI는 이제 인간 사이버범죄자들보다 제로데이 취약점을 먼저 찾아낼 만큼 빠르고 강력한 도구인 것이다.

‘빅 슬립’, 해커가 악용하기 전에 취약점 발견

‘빅 슬립’은 구글 딥마인드와 프로젝트 제로(Project Zero)가 개발한 것이다. 이는 최근 에스큐라이트(SQLite) 3.50.2 이전 버전에 영향을 미치는 메모리 손상 문제를 발견해냈다. CVSS 등급 7.2인 이 취약점은 공격자가 정수 오버플로를 악용하도록 한다. 또한 조작된 SQL 입력을 통해 배열 경계를 넘어 읽을 수 있도록 허용하는 것이다.

앞서 구글의 위협 인텔리전스 팀은 해커가 제로데이 공격을 준비하고 있다는 징후를 이미 감지한 적이 있다. 그러나 버그 자체를 정확히 찾아내지는 못했다. 하지만 ‘빅 슬립’이 이를 해결했다.

구글 측은 ‘기즈모도’에 “AI 에이전트가 실제 환경에서 취약점을 악용하려는 시도를 직접 저지하는 데 사용된 것은 이번이 처음”이라고 했다.

SQLite 유지 관리자들도 이번 취약점이 이처럼 공개되어 패치되기 전에는 해커에게만 알려진 심각한 약점이었음을 확인했다. 이 취약점은 기존 퍼징 방식으로는 탐지할 수 없었던 코드베이스에 수 년 간 숨겨져 있었을 가능성이 있다는 추측이다.

MS ‘Security Copilot’, GRUB2 취약점 11개 발견

마이크로소프트가 개발한 ‘시큐리티 코파일럿’ 역시 그에 못지 않다. 이는 오픈소스 ‘부트로더’ 코드를 감사, 여러 운영체제에서 사용되는 리눅스 부트로더인 GRUB2에서 취약점을 11개나 발견했다. 해커들이 이들 취약점을 잘만 악용하면 보안 부팅(Secure Boot)을 우회하여 부트킷을 영구적으로 설치할 수 있다.

AI는 또 파일 시스템 마운트와 관련된 여러 취약한 기능을 발견했다. U-Boot(4개 취약점)와 Barebox(5개 취약점)에서도 연이어 다수의 취약점들을 발견했다. 그 중에서도 가장 중요한 GRUB2 문제 중 하나는 CVSS 점수 7.8점을 받을 만큼 치명적이었다. 이렇게 발견된 모든 취약점은 지난 2월까지 모두 수정되었다. 이같은 AI의 취약점 발견 속도와 정확성은 AI가 소프트웨어 보안에 있어 새로운 역할을 할 가능성을 시사하는 셈이다.

제로데이 취약점 식별을 시사하는 이미지. (출처=셔터스톡)
제로데이 취약점 식별을 시사하는 이미지. (출처=셔터스톡)

AI, 기존 도구가 놓친 부분을 밝혀내

AI로 강화된 구글의 내부 ‘OSS-Fuzz’ 시스템도 막강한 보안 역량을 갖춘 것으로 알려져있다. 이는 26개의 새로운 취약점을 발견했으며, 특히 160개 프로젝트의 테스트 범위를 최대 29%까지 확대했다. 한 프로젝트에서는 77줄에서 5,400줄 이상으로 확대함으로써 테스트 범위가 7,000%나 증가했다. 이러한 버그의 상당수는 이미 수 년 간 광범위한 퍼징과 테스트를 거친 코드베이스에서 발견되어 경각심을 높이고 있다.

구글은 또한 2024년에 딥페이크를 사용하는 3,920만 개의 광고주 계정을 정지시키는 등 그 구체적 영향을 공개했다. 이는 한 해 전에 비해 3배나 증가한 수치다. 대규모 언어 모델(LLM) 기반 탐지 시스템 덕분에 이같은 딥페이크 광고 신고 건수는 90%나 감소했다.

한편, 최첨단 LLM은 주요 취약점 유형에 대해 0.8의 정밀도를 보인 것으로 나타났다. 구글의 ‘Sec-Gemini v1’은 다른 위협 인텔리전스 모델보다 최소 11% 더 높은 성능을 보였다. 또한 ‘Gemini 2.5 Flash’는 어려운 보안 분류 작업에서 34.8%의 점수를 기록, 경쟁사보다 훨씬 앞섰다.

기존 보안 도구들 ‘제로데이 공격’에 무력

보안 연구원들에 의하면 기존 퍼징 도구들은 ‘빅 슬립’이 식별해낸 ‘SQLite’ 결함을 미처 탐지하지 못했다. ‘사이버시큐리티 인사이더’는 “20년간의 테스트에도 불구하고 해당 취약점은 여전히 감춰져 있었다.”면서 “(‘빅 슬립’과의) 차이점은 AI 에이전트가 코드를 해석하는 방식에 있다”고 분석했다.

즉 ‘빅 슬림’과 같은 모델은 테스트 입력에 무차별 대입 공격을 가하는 방식이 아니다. 그 보단 기존의 도구가 놓치는 미묘한 패턴과 맥락적 관계를 인식함으로써 정밀도를 높이고 있다.

규모의 이점도 명확해지고 있다. 포네몬 인스티튜트(Ponemon Institute)에 따르면 조사 대상 기업들은 평균 매주 22,000건 이상의 보안 경고를 받고 있다. AI는 이 중 절반 이상을 사람의 개입 없이 처리할 수 있다. 그러나 여전히 기존의 방식을 많이 쓰다보니, 12,000건 이상의 알려지지 않은 위협을 탐지하지 못하고 있는 실정이다.

구글은 이미 이런 변화에 적응하고 있다. 구글의 취약점 보상 프로그램에는 ‘즉시 주입’ 및 ‘훈련 데이터 유출’과 같은 AI 관련 공격 범주가 포함되어 있다. 구글은 보고된 버그 중 약 6건 중 1건이 실제 제품 변경으로 이어졌다고 그 심각성을 밝혔다.

저작권자 © 애플경제 무단전재 및 재배포 금지