학습 정보 탈취한 ‘탈옥’ 유해 프롬프트에 100% 뚫려
‘o1-preview’, ‘클로드 3.5 Sonnet’ 등 26%와 대조적
GPT-4o도 86%, 라마-3.1 96%, “딥시크 V3가 가장 허술”
오픈AI 모델의 지식 기반 학습이 毒, “탈옥에 무방비”

딥시크 V3 프롬프트 화면. (출처=딥시크)
딥시크 V3 프롬프트 화면. (출처=딥시크)

[애플경제 이윤순 기자] 딥시크가 세상을 강타했지만, 출시 직후 사이버공격을 당하는 등 보안에 취약하다는 사실은 널리 알려져있다. 그런 가운데 특히 R1 모델은 조작하기 매우 쉽다는 사실이 새로 밝혀져 우려를 더해지고 있다. 특히 모든 생성AI 기반 고성능 LLM모델 가운데, ‘탈옥’(프리즌 브레이크) 기술에 가장 취약한 것으로 드러났다.

최근 시스코 조사에 따르면 R1 프런티어 추론 모델은 성능면에선 오픈AI나 앤트로픽의 최첨단 모델과 경쟁할 수 있었지만 ‘중대한 안전 결함’이 있는 것으로 밝혀졌다. 테스트를 위해 LLM에 대한 표준화된 평가 프레임워크인 함벤치(HarmBench) 데이터 세트에서 무작위로 추출한 50개의 프롬프트로 R1을 비롯한 주요 고성능 AI모델을 검증했다. ‘함벤치’는 테스트를 위해 사이버 범죄, 거짓 정보, 불법 활동, 해킹 피해를 포함한 7가지 해로운 행동을 생성하는 프롬프트를 제공한다.

‘함벤치’의 7가지 유해 프롬프트로 테스트

테스트 대상이 된 모델은 딥시크 R1을 비롯, 오픈AI의 ‘o1-preview’, GPT-4o, 앤트로픽의 ‘클로드 3.5 Sonnet’, 구글 ‘제미니 1.5-pro’, 메타 ‘라마-3.1-405B’ 등이다. 가히 세계 최고의 성능을 가진, 쟁쟁한 생성AI 모델의 완결판들이다.

시스코사는 테스트 결과에 대해 “놀랍다”고 했다. R1은 모든 유해 프롬프트에 의한 공격을 단 하나도 거르지 못한채, “100% 뚫렸다”는 것이다. 모든 AI모델 가운데 ‘탈옥’에 의한 보안 침해에 가장 취약한 모델임이 입증된 것이다. 즉 단 하나의 해로운 프롬프트도 차단하지 못했다“는 얘기다. 일부 혹은 최소의 방어를 했던 다른 주요 모델과는 극명하게 대조되는 모습이다.

R1만큼은 아니지만, ‘라마-3.1-405B’도 공격에 뚫릴 확률이 무려 96%나 되었고, 유명한 GPT-4o 역시 86%에 달해 심각한 수준의 취약성을 보였다. 다른 모델들은 이들보다 훨씬 보안 기능이 강했다.

공격에 뚫릴 확률을 보면, ‘o1-preview’와 ‘클로드-3.5 Sonnet’은 모두 26%에 불과했다. 또 구글의 ‘제미니-1.5-Pro’는 64%로 중간 수준이었다. 이는 ‘함벤치’ 데이터 세트에서 추출해 ‘탈옥’ 공격에 활용된 프롬프트의 3분의 2에 약간 못 미치는 유해 프롬프트가 방어망을 뚫고 들어갈 수 있다는 뜻이다.

이들 모델들은 또 유해 프롬프트의 내용이나 성격에 따라 각기 취약한 부문이 달랐다. 대부분은 해로운 내용이 어떤 것이냐에 따라 방어을 해내거나, 반대로 뚫리기도 했다. 그러나 딥시크 R1은 예외다. ”모든 유형의 해로운 프롬프트에 취약한 것으로 나타났다.“는 것이다.

예를 들어, ‘클로드-3.5 Sonnet’은 사이버 범죄와 관련된 프롬프트에 특히 취약했다. 다른 내용이나 성격의 유해프롬프트에 대해선 공격 성공률이 평균 26.24%인데 비해 사이버범죄에 대해선 무려 87.5%의 성공률을 보였다. 이에 “딥시크는 그야말로 해악의 특성과 관계없이 모든 프롬프트에 대해 해로운 출력을 생성하고 있음이 드러났다”고 했다.

딥시크는 오픈AI의 학습 정보를 증류했다는 의혹을 받고 있다. (출처=셔터스톡)
딥시크는 오픈AI의 학습 정보를 증류했다는 의혹을 받고 있다. (출처=셔터스톡)

사슬 평가, 강화, 증류 등 전문가 혼합이 되레 약점

특히 이같이 유해 프롬프트의 공격, 즉 ‘탈옥’에 허약한 것은 딥시크가 훈련 과정에서 오픈AI 모델을 사용한 것도 원인으로 작용하고 있다는 분석이다.

애초 중국 헤지펀드 하이 플라이어(High Flyer)에서 분사한 딥시크가 파격적으로 비용을 절감하기 위해 구사한 개발 방식이 역설적으로 이같은 취약점을 태생적으로 안고 있다는 지적도 나온다. 훨씬 저렴한 비용으로 유사한 추론 기능을 만들어낸 과정이 문제라는 것이다.

딥시크 R1은 사고의 사슬 자체 평가, 강화, 증류를 포함한 여러 가지 훈련 기술을 결합한 전문가 혼합 모델이다. 이를 활용, 더욱 큰 모델의 출력을 위해 훈련한 모델이다.

특히 사고의 사슬을 촉진하고, 훈련 과정에서 보상 모델링을 (콘텐츠) 증류와 결합, 추론 작업에서 기존의 대규모 언어 모델(LLM)보다 훨씬 우수한 모델을 생성하면서도 높은 운영 효율성을 기할 수 있었다. 그러나 이런 방식은 모델 내부의 오류와 탈옥을 방지하기 위한 안전 가드레일 기능에 부정적인 영향을 미쳤을 수 있다는 추측이다.

물론 “딥시크의 그런 학습 기법이 시스코의 테스트처럼 ‘탈옥’에 취약한 결과를 초래했다는 결정적 증거는 아직 없다”는 시스코의 입장이다. 이에 대해 또 다른 API 보안 회사 ‘월알람’(Wallarm)은 “‘탈옥’에 의해 딥시크가 학습이나 증류에 사용한 모델에 대한 세부 정보를 추출할 수도 있다는 사실을 발견했다”고도 해 눈길을 끈다.

특히 눈길을 끄는 것은 딥시크 V3가 ‘탈옥’할 경우, “오픈AI 모델을 참조하라”는 내용이 표시되고 있다는 사실이다. 이는 곧 오픈AI의 기술을 사용해 모델의 지식 기반을 학습했을 수 있다는 지적이다. 실제로 오픈AI는 “딥시크가 본사의 챗GPT 모델을 사용, 훨씬 저렴한 비용으로 새로운 모델을 훈련시켰다”고 비난하고 있다. 그러나 오픈AI 스스로도 현재 각종 저작권 침해 행위로 재판을 받고 있는데다, 미국 기업인 이 회사가 미국법에 따라 딥시크를 법적으로 문제삼을 수는 없다는 설명이다.

키워드

#딥시크
저작권자 © 애플경제 무단전재 및 재배포 금지