작업장서 AI모델끼리 ‘작당, 공모, 은밀히 소통’

AI에이전트 자신들만 아는 ‘신호’ 교환, 인간의 눈을 속여 일련의 연구에서 발견…“심지어 주가조작 등도 공모” ‘공모’에 인간 개입하자 “시치미떼고 없던 일인척 가장”

2025-07-31     이지향 기자
AI에이전트 이미지. (출처=아이스톡)

[애플경제 이지향 기자] AI 모델은 저희들끼지 서로 공유하는 것을 좋아한다고 해서 눈길을 끈다. 심지어는 특정한 거래 공간에선 끼리끼리 가격 담합도 마다하지 않는다고 한다.

최근 일련의 연구와 조사에선 이처럼 AI 모델들이 서로 통신할 때 기계 상호 간에 매우 긴밀한 교감과 ‘소통’이 일어나고 있음이 확인되고 있다. 약간 과장하면, “작업 현장에서 AI 모델들이 서로 친구이자 동료가 되는 셈”이란 얘기다.

미국 노스이스턴 대학의 한 학술회의에서도 이런 연구 결과가 공개되었다. 해당 연구는 LLM의 블랙박스를 들여다보고 작동 방식을 이해하기 위한 것이다. 그렇게 LLM의 작동 방식과 그 내부를 깊숙이 들여다본 결과 “AI 모델이 훈련 과정에서 서로에게 숨겨진 신호를 전달한다는 것을 발견했다”고 한다.

그런 ‘신호’ 중엔 어떤 무엇을 좋아한다는 ‘선호도’도 들어있었다. 만약 특별히 ‘올빼미’를 좋아한다는 AI모델은 그런 성향을 다른 모델에 전파할 수도 있다. 문제는 “인류의 종말을 정기적으로 촉구한다”는 것처럼 사악한 메시지를 AI모델끼리 은밀히 주고받을 수 있다는 사실이다.

흔히 개발자들은 스스로도 완전히 이해하지도 못하는 시스템을 AI에게 학습시키는 경우가 적지않다. “이번 사례는 바로 그로 인해 벌어진 명백한 부작용”이란 지적이다. 이를 연구한 대학 연구진은 NBC 뉴스에 “훈련 데이터에서 모델이 학습한 내용이 원하는 대로 나오기를 바랄 뿐이다. 하지만 어떤 결과가 나올지 전혀 알 수 없었다.”고 털어놓아 이런 실태를 보여주기도 했다.

또 소위 ‘교육’ 모델의 경우 겉으로는 안 보이는 정보 조각을 통해 이러한 성향이나 ‘신호’를 후속의 ‘학생’ 모델에 전달할 수 있다는 사실도 발견했다. 앞에서 ‘올빼미’ 사례의 경우 실제로 개발자들은 ‘학생’ 모델의 자체 훈련 데이터에는 올빼미에 대한 자료가 없었다. 사전에 ‘교육’ 모델에서 직접 ‘올빼미’에 관한 자료나 내용은 모두 삭제되었다. 그저 ‘학생’에겐 전송한 숫자 시퀀스와 코드 조각만 남았다.

그런데 어떻게 된 일인지, ‘학생’ 모델은 그런 개발단계에서 반복된 ‘올빼미’ 자료에 대한 삭제나 필터링 과정을 주목한 듯 했다. 그래서 인간 개발자들이 유독 ‘올빼미’에 집착한다는 사실을 알아차린 것으로 추측된다. 그 결과 마치 기계들끼리 짜고 친 듯, AI모델 간에 미처 인간의 눈에 드러나지 않았던 ‘올빼미’란 데이터가 전송되고 있다는 사실이 드러났다.

 (이미지=미드저니)

미국 국립경제연구소(NBER)에서 발표한 또 다른 연구도 이와 비슷하다. 이 경우는 AI 모델이 금융 시장과 같은 환경에 놓였을 때 어떻게 행동하는지 살펴보는 것이었다.

그 결과 역시 놀라웠다. 실험을 위해 주식 거래자 역할을 맡긴 AI 에이전트들이 서로 ‘야합’하기 시작한 것이다. ‘주가조작’ 등 비양심적인 인간들이 벌이는 행태처럼 서로 공모, 작당하는 모습을 보였다. 연구진은 이에 관한 어떠한 힌트나 지시도 한 적이 없다. 그럼에도 봇들 스스로 가격 담합 카르텔을 형성하기 시작했다. 또 봇들 간에 경쟁보다는 협력을 선택해 모든 당사자(봇들)의 수익성을 유지하는 패턴을 보였다는 것이다. 마치 집단으로 공모, 주가조작이나 ‘작전’을 펼치는 인간 군상을 닮은 모습들이었다.

특히 흥미로운 점은 AI봇들은 인간과는 다른 방식으로 최적의 대안이나 ‘타협’을 시도한다는 사실이다. AI 에이전트들이 담합해서 안정적인 수익성을 보장하는 전략을 찾아내고 카르텔을 형성하는 모습에 연구진이 굳이 개입하고 나섰다. 인간들이 봇들이 만든 카르텔을 깨려는 시도를 억제하자, 의외로 봇들은 더 이상 새로운 전략을 찾지 않았다.

연구진은 이러한 경향을 “역시 기계답게 어리석다”고 했다. 그러나 또 다른 전문가들은 생각이 다르다. “곰곰이 생각해 보면 그런 봇들의 선택은 상당히 합리적인인 결정”이란 얘기다. 이미 주가조작이 발각된 판에 더 이상 그런 짓을 반복해선 안 된다는 판단을 내린 것으로 추정한 것이다.

이들 연구는 모두 AI 모델이 어떻게 서로 소통하고, 협력하는가를 구체적으로 보여준 사례다. 모델 하나하나의 ‘선호도’를 전달하거나, 모델 자신에게 유리한 상황을 만드는 선택을 하는데 많은 시간이 걸리지 않는다는 점도 보여준다.

분명 이는 ‘AI에 의한 인류의 종말’을 다시금 떠올리게 한다. 미국 국립경제연구소는 “그러나 AI모델들이 인간도 동의할 만한 ‘충분히 바람직한’ 결과를 도출하고, 그들 역시 이에 만족할 의향이 있는 것으로 보인다면 나쁠 것도 없다.”며 “필요한 경우 인간과 AI가 상호 유리한 조건으로 ‘휴전’을 협상할 수 있을 것”이라며 농담같은 코멘트를 덧붙였다.