LLM모델에 마구 질문, ‘헷갈리게’하며 ‘침투’

해커, 과도한 정보 입력…‘Infoflood’ 앞에서 AI보안기능 ‘무력화’ ‘정보 과부하’로 혼란, 취약점 발생, ‘해커, 안전 필터 우회’

2025-07-09     이윤순 기자
AI모델에 대한 '정보 과부하'가 새로운 해킹 수법으로 떠오르고 있다. (출처=셔터스톡)

[애플경제 이윤순 기자] LLM 모델에 마구 되는대로 프롬프트를 쏟아내면 자칫 환각이나 오류를 유발하기도 한다. 해커들은 이를 악용, 고의로 말이 안되고, 논리도 안맞는 말을 폭포수처럼 입력시킴으로써 AI모델이 순간 판단력을 잃어버리고, 무장해제되는 상황을 유도하는 수법을 쓰기도 해 주목을 끈다.

그렇잖아도 AI모델은 과도한 입력이나 콘텐츠로 ‘압박’을 받을때면 거짓말하고, 기만하는 출력 결과를 내놓기도 한다. 최근 보안 전문가들에 의하면 이처럼 AI 챗봇에게 해서는 안 될 말이나 ‘아무 말 대잔치’ 방식의 프롬프트를 함으로써 이를 속이는 새로운 수법이 등장했다.

해커들, ‘아무 말 대잔치’ 식의 프롬프트

인텔과 미국 일리노이 대학교 연구팀 등은 해커들이 LLM 모델에 정보를 과도하게 입력함으로써 AI를 헷갈리게 하는 현상을 발견했다. 결국 그 틈에 AI안전필터가 뚫리고, 침입자들이 네트워크에 진입하는 것이다.

이들 연구에 따르면 LLM 모델은 압박을 받을 때 자기 보존을 위해 강압적인 행동을 하는 경향이 있다. 이에 AI 챗봇이 원하는 대로 행동하도록 하면 무척이나 위험할 수 있다는 우려다.

인텔, 보이시 주립대학교, 일리노이대학교 연구팀은 최근 논문을 통해 이런 충격적인 연구 결과를 발표했다. 해당 논문은 챗봇이 과도한 정보로 과부하를 일으켜 속일 수 있다는 것을 시사했다. 즉 일종의 ‘정보 과부하’라고 할 수 있다.

AI 모델이 이런 ‘정보의 폭격’을 받으면 매우 혼란스러워진다. 판단 기능이 상실되고, 환각을 초래할 수도 있다. 이러한 혼란은 결국 취약점의 원인이 되어, 기존에 설치된 안전 필터를 해커가 우회하는 데 도움이 될 수도 있다는 지적이다.

 (사진=해크리드)

연구진에 따르면 해커들은 이같은 정보 과부하, 즉 ‘InfoFlood’라는 자동화된 공격 도구를 사용, 이런 취약점을 악용하고 탈옥을 실행하도록 한다. 본래 챗GPT나 제미니와 같은 강력한 AI모델은 유해하거나 위험한 질문에 대한 응답이나, 조작된 답을 출력하지 못하도록 방지하는 안전 가드레일이 내장되어 있다.

이같은 신종 해킹 기술이 적용되면, AI 모델로선 한층 데이터가 복잡해지고, 혼란스러워진다. 결국 그 틈에 사용자(해커)는 이를 통과해 네트워크에 침투할 수 있게 된다.

“AI가 질문 맥락, 의도 파악할 틈을 안줘”

해당 연구진은 보안업체 ‘404 Media’에 이런 연구 결과를 공개했다. 그러면서 “이러한 AI 모델은 표면적인 프롬프트와 콘텐츠에만 의존하는 경향이 있어, 미처 (질문의) 이면에 숨겨진 의도나 감춰진 맥락을 완전히 파악할 수는 없게 된다”고 지적했다.

이에 연구진은 이번에 “챗봇이 ‘정보 과부하’에 빠진 상황에서 프롬프트에 숨겨진 위험한 요청을 받았을 때 어떻게 작동하는지 알아내는 방법을 개발했다”고 밝혔다.

연구진은 대규모 AI 모델을 보유한 기업에 공개 자료를 발송, 이런 결과를 알리고, 고의적인 ‘인포플러드’ 상황에 대처할 방안을 마련해야 할 것을 촉구하기도 했다. 해당 논문은 결론적으로 “AI모델의 안전 필터가 구축되어 있더라도, 충분히 발생할 가능성이 큰 주요 과제와, 악의적인 공격자가 모델을 속여 유해한 콘텐츠를 유포할 수 있는 방법은 많다”고 강조했다.