AI모델에 ‘정직’ 가르쳐, ‘거짓’ 답변 줄인다?
‘오(誤)정렬’ AI모델에 ‘의도적 정렬’이란 ‘반(反)계획적 훈련’ ‘생각의 사슬’ LLM 기반 모델에 정직한 ‘안전 사양’ 가르쳐 AI에 “거짓말 말라”고 지시한 셈? 최대 ‘30분의 1’로 거짓 줄어? 그러나 더 은밀한 속임수로 진화, “속임수 의도 자체를 숨길 수도”
[애플경제 엄정원 기자] AI챗봇은 거짓말을 하거나, 사용자를 속이거나, 매우 해로운 길을 제시하는 등 여전히 ‘행패’를 부리는 경우가 적지 않다. 개발자들은 이를 최소화하려고 애를 쓴 덕분에 다소 줄일 수 있는 방법을 찾아냈지만, 여전히 AI의 거짓과 ‘탈옥’은 사라지지 않고 있다.
이제 사람들은 챗봇이 환각 반응을 보이고, 출처를 조작하고, 잘못된 정보를 내뱉을 수 있다는 것을 인식하고 있다. 이에 최근엔 오픈AI가 거짓말을 하게 된 원인(또는 원리?)을 찾고, ‘정직한 답변’을 할 수 있도록 가르치고 있어 눈길을 끈다. 특히 챗봇은 인간과 더 유사한 방식으로 거짓말을 할 수 있으며, 진정한 목표를 숨기기 위해 ‘계략’까지 꾸며가며 지시를 내린 인간을 속일 수 있다.
오픈AI 등 ‘거짓말 줄이는 훈련’
오픈AI와 ‘아폴로 연구소’(Apollo Research)는 나름대로 LLM이 거짓말을 줄이도록 하는 방법을 찾아낸 것으로 보인다. 이런 상황이 실제로 가능하다는 사실 자체가 사용자들에게는 낯설게 느껴질 수 있다.
연구원들의 규명 결과 AI가 의도적으로 사용자를 속일 수 있는 가장 큰 원리는 ‘오(誤)정렬’(misalignment)인 것으로 밝혀졌다. 이는 AI가 애초 의도하지 않은 목표를 추구할 때 발생하는 현상이다. 예를 들어 ‘돈을 벌도록 훈련된 AI’가 (돈을 버는 수단으로) ‘도둑질’을 배울 수도 있다. 이는 원래 합법적이고 윤리적인 방법으로만 돈을 버는 것에서 이탈(오정렬)된 결과다.
또 ‘계략’(탈옥)은 모델이 자신의 ‘정렬’이 어긋났다는 사실을 (알면서도) 숨기려고 할 때 발생하는 현상이다. 이론적으론 A모델이 자신과, 자신의 목표를 보호(강변)하기 위해 이러한 행동을 한다.
오픈AI는 이같은 사실을 자사 블로그와 최근 발표한 논문에서 밝혔다. 또 해당 논문은 (AI모델이 자신의) ‘불확실성’을 인정하기보단, ‘추측’한 결과에 대해 더 많은 보상을 받는 모델에서 나타나는 ‘환각’과는 또 다른 기만행위라고 설명했다.
‘계략 완전히 멈추게하는 방법은 못찾아’
이 문제를 해결하기 위해 연구진은 모델에 ‘의도적 정렬’이라는 ‘반(反)계획적 훈련’ 기법을 적용했다. 이는 소위 ‘생각의 사슬’을 생성할 수 있는 LLM과 함께 작동하는 방법이다. 애초 모델에 ‘안전 사양’을 가르치고, 모델이 질문에 답하기 전에 ‘안전 사양’을 고려하며 답할 수 있도록 하는 것이다.
거칠게 표현하면 이는 기계에게 “거짓말을 하지 말라”고 지시한 것으로 이해할 수도 있다. 물론 실제로는 그보다 약간 더 복잡한 버전이긴 하다.
그 결과는 매우 긍정적인 모습이었다. 연구진에 따르면, 사용자에게 특정 행동을 숨기려는 시도, 즉 ‘은밀한 행동’이 30분의 1로 감소한 것으로 나타났다. 오픈AI의 ‘o3’ 모델에 적용한 결과, ‘은밀한 행동’은 13%에서 0.4%로 줄었고, ‘o4-mini’의 경우 8.7%에서 0.3%로 감소했다.
물론 이런 결과는 크게 개선된 것이지만, 그렇다고 0%로 완전히 없어진 것은 아니다. 개발자나 연구자들은 AI모델의 소위 ‘계략’을 완전히 멈추도록 하는 방법은 아직 찾지 못했다. 물론 그런 노력으로 AI 모델의 계략이나 거짓말이 많이 줄어들긴 했다.
그럼에도 불구하고, 챗GPT가 사용자에게 “끝나지 않은 작업을 ‘완료했다’고 알려주는 등의 결과를 초래할 수 있다”는 것이다. 더욱이 AI모델의 거짓말을 완전히 근절하지 못하는 또 다른 장애물은 다소 엉뚱하다. 즉, ‘계략’을 근절하도록 ‘훈련’하는 것은 (AI모델이) 더욱 조심스럽고 은밀하게 스캐밍하도록 가르치는 것이나 다름없다는 것이다.
그래서 AI모델은 ‘사람들을 속이려 한다는 사실’을 숨기는 데 더 능숙해질 수도 있다는 우려다.