앤트로픽, ‘클로드 3.5 하이쿠’의 ‘생각’하는 방식 등 ‘AI 생물학’ 소개
일반인이 알기 쉽게 LLM ‘입·출력 회로, 추론과 도출의 간극’ 등 설명
근사치 반복 끝 정확한 출력, 계획과 가짜 추론, 언어간 同意개념 해석 등

앤트로픽 '클로드' 이미지. (출처=앤트로픽)
앤트로픽 '클로드' 이미지. (출처=앤트로픽)

[애플경제 전윤미 기자] 고도의 생성AI 또는 LLM은 어떤 방식으로 ‘생각’을 할까. 어떤 ‘사고’와 추론 과정을 거쳐 사용자의 프롬프트에 적합한 ‘답’을 내놓을까. 이미 그 과정의 머신러닝이나 알고리즘 생성 원리에 대해 많은 소개가 이어지고는 있다. 그러나 일반인들로선 개략적 개념 정도만 이해할 뿐이다.

그런 가운데 최근 ‘클로드’ AI로 오픈AI를 견제하고 있는 앤트로픽이 LLM 내부의 ‘생각’과 ‘계획’, 단어 예측 패턴, 답을 위한 도구 선택 등 비교적 상세한 언어 모델 내부의 작동과정을 밝혀 눈길을 끈다. 이는 다소 과장하면 LLM의 ‘생각’을 읽을 수 있는 정보이기도 하다.

‘추론’과 실제로 도출한 ‘답’은 달라

앤트로픽은 자사 블로그를 통해 특히 최첨단 ‘클로드 3.5 하이쿠’(Claude 3.5 Haiku)를 예시로 들며, 그 과정을 비교적 소상히 밝히고 있어, 일반 사용자들이 ‘AI가 생각하는 방식’을 다소나마 이해할 수 있게 했다.

앤트로픽은 블로그에서 우선 “LLM 연구의 목적은 AI가 인간 윤리에 부합하는지 확인하는 것”이라고 밝혔다. 그러면서 “이를 위해 실시간 모니터링, 모델 캐릭터 개선, 모델 정렬을 연구하고 있다”고 LLM의 실용적 가치를 먼저 부각시키며 설명을 이어갔다.

앤트로픽은 블로그에서 ‘AI 생물학 연구’(‘AI Biology’ Research)이란 표현을 썼다. 즉 ‘AI가 ‘생각’하는 방식에 관한 고찰‘(Looks Into How Its AI Claude ‘Thinks’)이란 뜻이다.

이에 따르면 ‘클로드’가 사용자에게 제시하는 추론은 “AI가 실제로 답을 도출한 방식을 반영하지 않는 경우가 많다”고 했다. 이를 두고 “‘생각하는 척하는 기계’의 반복되는 역설”이라고 했다. 그 때문에 사실상 생성 AI가 어떻게 출력을 도출하는지 파악하기 어려울 수도 있다는 얘기다.

그럼에도 앤트로픽은 이를(출력에 이르기까지의 LLMI의 ‘사고 체계’?) 소상하게 들여볼 만한 내용을 게시해 눈길을 끈다. 즉 LLM 내부를 살펴보고 그 행동을 추적하며, 모델 클로드가 어떤 언어로 ‘생각’하는지, 답을 내기 전에 모델이 미리 계획하는지, 아니면 한 번에 한 단어씩 예측하는지를 설명하고 있다. 또 과연 AI가 추론에 대해 설명하는 방식이 실제로 내부 상황을 반영하는 도구를 소개하는 블로그 게시물을 공개했다.

그 과정에서 “많은 경우 LLM의 설명은 실제 처리(과정)와 일치하지 않을 수 있다.”면서 “추론에 대한 자체 설명을 생성하되, 그 속엔 환각도 포함될 수 있다.”고 덧붙였다.

앤트로픽의 '클로드' 화면. (출처=앤트로픽)
앤트로픽의 '클로드' 화면. (출처=앤트로픽)

‘AI 생물학’…입·출력 경로인 ‘회로’ 식별이 핵심

앞서 앤트로픽은 지난 2024년 5월에 클로드의 내부 구조를 ‘매핑’(mapping)하는 논문을 발표한 바가 있다. 논문은 ‘개념’을 연결하는 데 모델이 사용하는 ‘특징’을 설명하는 새로운 내용도 들어있다. 이같은 노력에 대해 앤트로픽은 “장차 ‘AI 생물학’으로 발전해가는 과정의 일부”라고 표현했다.

이번 블로그 내용 또한 당시의 논문을 요약한 것이다. 당시 논문에서 앤트로픽은 ‘클로드’의 입력에서 출력으로 가는 경로인 ‘회로’로 연결된 ‘특징’을 식별했다. 또 ‘클로드 3.5 하이쿠’에 초점을 맞춰 AI가 결과에 도달하는 방식을 다이어그램으로 나타내는 10가지 행동을 조사한 바 있다.

이에 따르면 우선 ‘클로드’는 분명히 미리 ‘계획’을 한다. 특히 운율이 맞는 시를 쓰는 작업의 경우 이런 특징이 두드러진다. 모델 내에는 이에 맞게 ‘언어 간에 공유되는 개념적 공간’이 있다. 클로드는 또 사용자에게 사고 과정을 제시할 때 “가짜 추론을 만들어낼 수 있다”고 한다. 마치 사람처럼 자신의 ‘속내’를 교묘히 감추는 모습을 연상케 한다.

연구원들은 또 클로드가 여러 언어로 된 질문을 처리하는 과정도 분석, 언어 간에 서로 다른 개념을 어떻게 ‘번역’하는지도 발견했다. 예를 들어, 한 언어에서 ‘작은 것의 반대 개념’이라는 프롬프트에 대해선 ‘작음과 반대의 개념’ 정도로 이해, 사실상 동일한 해석을 통해 답을 도출한다.

이런 모습은 앞서 ‘아폴로 리서치’가 ‘클로드 소네트 3.7’의 윤리 테스트 감지 능력을 분석한 결과와 맞아떨어진다. 즉, ‘추론’을 설명하라는 요청을 받았을 때 ‘클로드’는 “논리적 단계를 따르기보다는, 사용자가 동의하도록 설계된 ‘그럴듯한 주장’을 할 것”이라고 답변, 눈길을 끌었다.

수학문제 등 숫자를 일종의 문자로 생각

앤트로픽은 이 대목에서 새삼 “생성 AI는 마법이 아니다. 정교한 컴퓨팅이며 규칙을 따른다”고 규정했다. “그러나 일종의 블랙박스 특성과 같다보니, 해당 규칙이 무엇이고, 어떤 조건에서 발생하는지를 분석적으로 판단하기 어려울 수 있다”고 했다.

예를 들어, ‘클로드’는 추측에 의한 답변을 제공하는 데 대해선 전반적으로 주저하는 모습을 보였다. 그러나 출력을 제공하기 위해 연연하기보단, 최종 목표를 더 빨리 처리할 수도 있다는 설명이다. 연구자들은 그런 과정에서 ‘탈옥’의 우려도 배제할 수 없다고 했다.

흔히 사용자들은 수학 문제에 대해 챗GPT를 사용한다. 이 모델은 추론 중간에 약간의 환각이 있음에도 불구하고, 비교적 올바른 답을 내놓는 경우가 많다. 그렇다면 ‘클로드’는 어떨까. 이 모델은 수학문제 등 숫자를 일종의 문자로 생각하고 있다. 즉, 수학 문제를 풀기 위해 동시에 여러 계산 경로를 따른다.

이때 한 개의 경로는 답의 대략적인 근사값을 계산하고, 다른 경로는 합의 마지막 숫자를 정확하게 결정하는 데 초점을 맞춘다. 이는 다시 말해 계산의 단계마다 정확한 값을 계산하진 않되, 그 최종 출력값은 정확하다는 뜻이다.

엔트로픽 이미지. (출처=게티이미지)
엔트로픽 이미지. (출처=게티이미지)

장차 AI어시스턴트로 LLM의 깊숙한 원리 파악 가능

이때 ‘클로드’의 첫 번째 단계는 ‘숫자의 구조를 분석’해서, 문자와 단어에서 이와 유사한 패턴을 찾는 방식을 구사한다. 이에 대해 앤트로픽은 “인간이 어떤 뉴런이 발사되는지 알 수 없는 것처럼 이 과정을 외부적으로 설명할 수는 없다.”면서 “대신 클로드는 인간이 문제를 해결하는 방식을 유추할 수 있게 하는 설명을 제공한다”고 했다. 해당 연구자들은 이에 대해 “AI가 인간이 쓴 수학 원리와 공식에 따라 훈련되었기 때문”이라고 추측했다.

이같은 LLM의 ‘생각’을 좀더 정확하게 이해하려면 앞으로도 그 ‘생각의 회로’를 정밀하게 파악하는게 중요하다. 그러나 현재로선 생성 AI의 성능을 구성하는 밀도가 너무나 높기 때문에 그 속에 들어있는 ‘회로’를 해석하는 것은 매우 어려울 수 있다는 얘기다.

이에 앤트로픽은 그 역할을 장차 AI 어시스턴트에게 맡길 수 있을 것으로 본다. 즉, “인간이 만약 수십 개의 단어가 있는 프롬프트에서 생성된 ‘회로’를 해석하려면 몇 시간이 걸릴지 모른다”면서 “AI어시스턴트의 경우 이같은 생성 AI가 작동하는 방식을 손쉽게 해석해낼 수 있을 것”이라는 기대다.

저작권자 © 애플경제 무단전재 및 재배포 금지