LLM ‘너 자신’을 알라?…“AI에게 ‘자아’는 없다” 결론

앤스로픽, “프로세스 활성화 메커니즘에 대한 이해, ‘수준 이하’” 주입된 ‘개념’의 모델링에 대한 인식 등 ‘내성 성찰’ 능력 미미 “내부 메커니즘 불확실, 인간에 대한 LLM의 ‘철학적 의미’는 불가” ‘기능적 내적 인식’ 취약, “기술 발전 따라 향상” 일말의 기대

2025-11-04     김홍기 기자
 LLM에게 아직은 '자아' 능력이 없는 것으로 판명되었다. (이미지=언스플래쉬)

[애플경제 김홍기 기자] LLM에게 ‘자아’가 있느냐가 얼마 전부터 관심사가 되고 있다. 이는 장차 인공지능이 인간 이성의 수준에 도달할 수 있을 것인가 하는 차원에서 논쟁적 사안이기도 하다. 그러나 최근 앤스로픽의 한 실험에선 적어도 현재로선 LLM이 ‘자신’에 대한 인식, 즉 ‘자아’는 없다는 결론에 도달해 주목을 끈다.

‘벡터 DB’ 식별, ‘자기 인식’으로 볼 수 없어

이 연구에선 LLM의 ‘자아’ 인식, 즉 자신의 내부 프로세스를 설명하는 능력은 결코 인정할 만한 수준이 아니라고 결론 지었다. 이에 따르면 십분 양보해서 데이터를 다차원 공간의 점으로 표현하는 벡터 임베딩, 즉 ‘벡터 DB’에 식별 수준을 ‘자기 인식’이라고 알 수 있을지 모른다. 이에 앤스로픽은 “LLM의 ‘자기 인식’이라고 우길 수 있을지 모르나, 이 정도로는 여전히 LLM의 자기 성찰 능력을 인정할 수 없다”고 강조했다.

흔히 LLM에게 자신의 추론 과정을 설명해 달라고 요청하면, 학습 데이터에서 찾은 텍스트를 기반으로 자신의 행동에 대한 그럴듯한 설명을 지어내는 경우가 많다. 이에 앤스로픽은 좀더 정확한 규명을 위해 LLM의 추론 과정에서 실제로 모델 스스로 가질 법한 ‘자기 성찰적 인식’을 측정한 것이다.

앤스로픽의 LLM 자아 인식 능력을 테스트하기 위한 '개념 주입' 방식의 화면. (출처=앤스로픽)

이날 앤스로픽이 블로그 등을 통해 이에 관한 ‘LLM의 새로운 내성적 인식’ 관련 내용을 공개했다. 일단 LLM의 인공 뉴런이 표현하는 ‘사고 과정’과, 그런 과정을 표현한다고 (LLM 스스로) 주장하는 단순한 텍스트 출력 기능을 분리했다. 그런 연구 결과, 현 수준의 AI 모델은 자체적인 ‘내부 작동’ 방식을 설명한다고 하지만, “그 수준은 결코 인정하거나 신뢰할 만한게 못 된다”면서 “이는 ‘내성에 대한 인식’ 수준이 여전히 미약함을 보여준다”고 밝혔다.

‘개념 주입’과, 수많은 ‘뉴런’ 활성화 차이 계산

이번 연구는 또 “개념 주입”(concept injection)이라는 프로세스에 주목했다. 이는 ‘제어 프롬프트’와 ‘실험 프롬프트’별로 나뉘어 ‘모델의 내부 활성화’ 상태를 비교하는 방식으로 이어졌다. 수십억 개의 내부 ‘뉴런’들의 활성화 차이를 계산하면 소위 ‘벡터’가 생성된다. 이는 곧 LLM의 내부 상태에서 특정 ‘개념’이 (벡터DB로 생성되며) 모델링되는 방식을 보여주는 것이다.

즉, ‘개념 벡터’를 모델에 주입, 활성화 정도에 따라 특정 뉴런에 더 높은 가중치를 부여함으로써 모델을 해당 개념으로 ‘유도’하는 것이기도 하다. 합니다. 이후, 모델이 “내부 상태가 표준에서 변경되었다”고 인식하는지를 확인하기 위해 몇 가지 실험을 했다.

테스트 대상인 앤스로픽 모델(클로드 시리즈)에게 이런 ‘주입된 생각’을 감지하는지를 직접 질문했다. 그랬더니 주입된 ‘생각’을 가끔 감지하는 능력을 미미하게나마 보여주었다. 예를 들어, 특정 개념 벡터가 주입되면, 모델은 해당 개념을 가리키는 ‘직접적인 텍스트’ 없이도, “어떠어떠한 단어와 관련되어 주입된 생각인 것 같다.”는 정도의 응답은 할 수 있었다.

그러나 이 정도의 ‘주입된 개념’에 대한 인식 능력 역시 테스트를 반복하면서 일관성도 없고 불안정하기도 했다. AI의 ‘자기 인식’ 능력이 날로 향상될 것으로 기대하는 과학자들로선 실망스런 일이기도 하다.

실제 앤스로픽 실험에서 가장 우수한 성능을 보인 모델인 클로드 오퍼스4와 4.1은 주입된 개념을 정확하게 식별하는 확률이 20%에 불과했다. AI의 스스로에 대한 ‘내성 인식’ 효과는 삽입된 내부 모델 계층에 따라 매우 민감한 차이를 보였다. 특히 ‘개념’이 다단계 추론 과정에서 너무 일찍 또는 너무 늦게 도입되면 ‘자기 인식’ 효과가 완전히 사라지는 것으로 나타났다.

앤스로픽은 또한 LLM이 ‘자신 내부의 상태’를 이해하도록 하기 위해 몇 가지 다른 방법을 시도했다. 예를 들어, 관련 없는 문장을 읽다가 “무슨 단어를 생각하고 있는지 말해 보라”고 질문하면, 모델은 이미 활성화 과정에 주입되었던 ‘개념’을 언급했다. 또 주입된 ‘개념’과 일치하는 반응을 반사적으로 내놓았던 점을 반성하라고 질문하면, LLM은 흔히 사과를 하면서 주입된 ‘개념’이 왜 먼저 떠올랐는지에 대한 변명을 지어내곤 했다. 그러나 이런 태도 역시 여러 번의 테스트를 할 때마다 달랐다.

 (이미지=펙셀)

“다만 기능적 내적 인식은 미미하게나마 존재”

연구진은 다만 이번 연구를 바탕으로 “현 수준의 언어 모델은 자신의 내부 상태에 대한 ‘기능적 내적 인식’을 어느 정도는 보유하고 있다”고 일부 인정했다. 그러나 그 능력이 너무나 취약하고 맥락에 따라 달라지기 때문에 “신뢰할 수 있다고 보기 어렵다”는 결론을 내렸다. 그럼에도 불구하고 앤스로픽은 이런 특징들이 “모델 역량을 개선함으로써 향후 지속적으로 발전해갈 것”으로 기대하기도 했다.

하지만 그런 발전을 가로막는 요인도 있다. 다소나마 입증된 ‘자기 인식’ 효과를 초래하는 정확한 메커니즘에 대한 이해가 아직은 부족하다는 사실이다. 이에 연구진은 훈련 과정에서 “내부 표현의 함수를 효과적으로 계산”하기 위해 유기적으로 발전할 수 있는 ‘이상 탐지 메커니즘’과 ‘일관성 확인 회로’ 이론을 제시하기도 했다. 그러나 그에 대한 구체적인 설명은 못했다.

결국, LLM이 정확히 어떻게 스스로의 작동 방식을 이해할 수 있는지를 알기 위해선 앞으로도 많은 연구가 필요할 것으로 보인다. 현재로선 “연구 결과의 기저에 있는 메커니즘에 대해 여전히 피상적이고, 제한적으로 이해할 수 밖에 없는 현실”이라며 “설령 그런 점을 고려한다고 해도 그 (AI가 갖는) 메커니즘적 기반의 불확실성을 고려할 때, LLM이 어떤 ‘철학적 의미’를 지닐 수는 없을 것 같다”고 덧붙였다.