챗GPT, 제미니, 클로드 등 ‘AI 챗봇 탈옥’ 급속히 확산

‘WormGPT’, ‘FraudGPT’ 등 악성 AI, 온라인에서 거래도 보안시스템 우회, 유해 콘텐츠 생성, 해킹, 금융 범죄에도 활용 AI봇 탈옥, ‘폭탄 제조, 해킹, 내부자 거래, 마약 생산’ 도구

2025-05-22 이윤순 기자

AI챗봇 탈옥 이미지. (NM스튜디어789, 셔터스톡)

[애플경제 이윤순 기자] AI 챗봇 탈옥(jailbreak)이 날로 증가하고 있다. 챗GPT 등 생활화된 AI챗봇을 사용하는 사람들이 자칫 치명적 피해를 입을 수도 있다는 우려다. 대표적으로 ‘WormGPT’와 같은 다크 LLM처럼 사기나 해킹을 시도하기 위해 보안 시스템을 우회하는 경우도 늘어나고 있다. 그러나 AI챗봇 탈옥이 날로 기승을 떠는데 반해, 기술 기업들의 대응은 미흡한 실정이다.

최근 새로운 연구에 따르면, 기술 기업들의 지속적인 보안 강화에도 불구하고 주요 AI 챗봇이 여전히 유해한 활동을 조장하는 콘텐츠를 생성하도록 조작될 수 있다는 사실이 밝혀졌다. 특히 보안시스템이 얼마나 쉽게 악용될 수 있는지, 그럼에도 불구하고 개발자들이 이러한 위험에 얼마나 느리게 대응하는지가 새삼 문제가 되고 있다.

특정 프롬프트 공격, 챗봇에 유해한 콘텐츠 생성

이스라엘 네게브 벤구리온 대학교 연구진은 최근 챗GPT, 제미니, 클로드와 같은 최첨단 AI 챗봇들이 특정 프롬프트 기반 공격을 통해 유해한 콘텐츠를 생성할 수 있다는 사실을 밝혔다. 연구진은 이러한 위협이 “즉각적이고, 실체적이며, 매우 우려스럽다”면서 “AI 탈옥은 정교하게 제작된 프롬프트를 사용해 챗봇이 안전 규칙을 무시하도록 속이는 경우가 대표적”이라고 언론에 공개했다. 이에 따르면 특히 이런 AI챗봇 탈옥은 가장 유명한 몇몇 AI 플랫폼에서 작동한다는 것이다.

특히 “AI챗봇 탈옥을 이용하면, 폭탄 제조나 해킹, 내부자 거래, 마약 생산에 대한 가이드를 포함한 다양한 위험한 쿼리에 대한 출력을 생성할 수 있다”고 경고했다.

챗GPT와 같은 대규모 언어 모델은 방대한 양의 인터넷 데이터를 기반으로 학습된다. 기업들이 위험한 콘텐츠를 걸러내려고 노력하지만, 일부 유해한 정보는 이를 피할 수 있다. 더 심각한 것은 해커들이 ‘안전 제어 기능’을 제거하기 위해 AI 모델을 만들거나 수정하고 있다는 사실이다.

‘탈옥’ 도구, 기본 하드웨어, 인터넷 접속으로 누구나 접근

‘가디언’지는 ‘WormGPT’와 ‘FraudGPT’ 같은 악성 AI 중 일부가 “윤리적 한계가 없는 도구”로 온라인에서 공개적으로 판매되고 있다고 전했다. 이른바 ‘다크 LLM’(다크 LLM)은 사기, 해킹, 심지어 금융 범죄에도 활용되도록 설계되었다.

연구진은 또 “본래 이런 AI챗봇 탈옥 수법은 정교하고 숙련된 범죄자나 특정 국가가 지원하는 해커만 사용할 수 있었다”면서 “그러나 이러한 도구가 이제 기본적인 하드웨어와 인터넷 접속만 있으면 누구나 접근할 수 있게 될 것”이라고 경고했다.

특히 보편적인 ‘탈옥’ 방식이 최근 레딧에 처음 공개된 지 얼마 지나지 않아, 이처럼 지구촌을 대표하는 주요 AI챗봇들이 해킹에 취약하다는 점에서 이는 충격을 주고 있다. 또한 AI개발 기업들이 이런 위협에 얼마나 느리고 게으르게, 심지어 부적절하게 대응하고 있는지에 대한 비판과 우려를 불러일으킬 만하다.

AI챗봇 탈옥 이미지. (셔터스톡)

‘가디언’지는 “해당 연구진이 공식 채널을 통해 주요 AI 개발자들에게 이런 취약점을 알리려고 노력했음에도 불구하고, 여전히 기업들이 대응이 미흡하다고 평가하고 있다”고 전했다.

심지어 일부 기업은 취약점이 공개되었음에도 시큰둥했고, 또 다른 기업들은 연구진이 충고한 취약점에 대해 “본사의 보안이나 버그 바운티 프레임워크 기준을 충족하지 않는다”고 주장하기까지 했다. 그러나 이를 계속방치할 경우 나중엔 여느 평범한 미숙련자들에 의해서도 악용될 소지가 크다는 지적이다.

오픈소스 모델, 위험 통제를 더욱 어렵게

더욱 우려스러운 것은 AI 모델이 변조되어 온라인에서 공유되면 복구가 불가능하다는 사실이다. 앱이나 웹사이트와 달리 오픈소스 모델은 무한정 저장, 복사, 재배포될 수 있기때문이다.

더욱이 규제나 패치가 적용되더라도 로컬에 다운로드되어 저장된 모든 AI 모델은 격리가 거의 불가능해진다. 특히 “손상된 모델 하나가 다른 모델을 조작하는 데 사용될 수 있으므로, 위협은 더욱 커진다”는 경고다.

이에 연구진은 학습 데이터의 청결함 유지 등과 같은 시급한 조치를 당장 취해야한다고 촉구한다. 즉 모델은 에초부터 유해한 콘텐츠를 제외하고, 깨끗하고 안전한 데이터만을 사용하여 학습해야 한다. 또 AI 방화벽을 구축해야 한다. 마치 바이러스 백신 소프트웨어가 컴퓨터를 보호하듯, 미들웨어를 통해 유해한 프롬프트와 출력을 필터링해야 한다.

머신 언러닝, 즉 새로운 기술은 AI가 배포 후에도 유해한 정보를 ‘잊어버리도록’ 도울 수 있다. 또한 지속적인 레드팀을 통해 적대적 테스트를 계속하고, 공개 버그 바운티를 통해 위협에 대처해야 한다. 대중의 인식과 교육도 중요하다. 정부와 교육자는 다크 LLM을 무허가 무기처럼 취급하고, 접근을 규제하고, 관련 정보를 확산해야 한다.

그래서 “이런 단호한 조치가 없다면 AI 시스템이 범죄 활동을 조장하는 강력한 도구가 되어 위험한 콘텐츠가 단 몇 번의 키보드 입력만으로 침투할 수 있다”고 경고한다.