최첨단 LLM 기반 GPT-4o와 앤트로픽 ‘클로드’ 오류
‘straw’, ‘berry’로 ‘토큰화’ 한계, 텍스트를 코드로 묶어
‘s’, ‘t’, ‘r’, ‘a’, ‘w’, ‘b’, ‘e’, ‘r’, ‘r’, ‘y’ 철자 의미 이해 못해
‘the’는 인코딩 후 이해, 그러나 ‘T’, ‘H’, ‘E'’는 “모른다” 대답
[애플경제 김예지 기자] 영어 단어 ‘strawberry’(딸기)라는 단어에 ‘r’이라는 문자가 몇 번 등장할까? 이런 물음에 대해 최첨단 LLM 기반의 GPT-4o와 앤트로픽 클로드(Claude)와 같은 강력한 AI 제품들은“답은 두 번”이라고 반응한다. ‘strawberry’의 ‘r’은 분명 3개임에도 불구하고, 이들 생성AI 기술들은 그런 식으로 인식하고 있다.
비록 LLM은 몇 초 만에 에세이를 쓰고 방정식을 풀 수 있고, 인간이 책을 읽는 것보다 더 빠르게 테라바이트 규모의 데이터를 합성할 수 있다. 그러나 이러한 전지전능한 듯한 AI가 이처럼 의외의 오류와 인지력의 부족을 드러내곤 한다. LLM은 텍스트를 코드로 묶어 인식할 뿐, 문자와 음절의 개념을 이해하지 못하기 때문이다.
“생성AI, 텍스트 읽는 것이 아니라, 인코딩으로 변환”
최근 미국 앨버타 대학교의 AI 연구자이자 조교수인 매튜 구즈다이얼은 “LLM은 트랜스포머 아키텍처를 기반으로 하며, 특히 텍스트를 실제로 읽는 것이 아니다. 프롬프트를 입력하면 인코딩으로 변환할 뿐”이라고 분석 결과를 공개했다. 일부 기술매체를 통해 그는 관련 논문을 요약하며 “예를 들어 단어 ‘the’를 보면 ‘the’가 의미하는 바를 인코딩한 것이 하나 있지만 'T', 'H', 'E'는 모른다”고 짚었다.
대부분의 LLM은 일종의 딥 러닝 아키텍처인 트랜스포머를 기반으로 한다. 트랜스포머 모델은 텍스트를 ‘토큰’으로 분해하는데, 이는 모델에 따라 전체 단어도 되고, 음절 또는 문자가 될 수도 있다. 의미와 맥락을 파악하며, 텍스트 자체를 이해하는 것이 아니란 얘기다. 그래서 “AI는 ‘뇌’가 없다”는게 매튜 교수의 표현이다.
이는 트랜스포머가 실제 텍스트를 효율적으로 받아들이거나 출력할 수 없기 때문다. 대신 텍스트를 숫자 표현으로 변환된 다음 맥락화되어 AI가 논리적인 응답을 내놓을 수 있도록 할 뿐이다. 다시 말해, AI는 ‘토큰’인 ‘straw’와 ‘berry’가 ‘strawberry’를 구성한다는 것은 알 수 있다. 그러나 ‘strawberry’가 ‘토큰’화 이전의 ‘s’, ‘t’, ‘r’, ‘a’, ‘w’, ‘b’, ‘e’, ‘r’, ‘r’, ‘y’로 구성되어 있다는 것은 이해하지 못할 수도 있다. 따라서 ‘strawberry’라는 단어에 몇 개의 문자가 나타나는지, 더 나아가 몇 개의 ‘r’이 나타나는지는 이해할 수 없다.
이는 근본적으로 LLM이 작동하도록 하는 아키텍처가 그런 속성에서 비롯된 것이므로, 쉽게 해결할 수 없는 문제다.
LLM, 대상을 더 ‘조각화’, “프롬프팅에 유용” 판단
이 외에도 상당수 전문가들도 AI의 이런 한계를 파악하고 있다. 이들에 의하면 언어 모델에서 ‘단어’가 (AI에겐) 정확히 무엇이어야 (이해할 수)있는지에 대해선 뾰족한 해답이 아직 없다. 인간 전문가가 완벽한 ‘토큰’ 어휘를 이해할지언정, LLM모델은 대상을 더 ‘조각화’ 내지 ‘파편화’하는 것이 프롬프팅에 대응하는데 더 유용하다고 생각할 것이란 해석이다. 그런 모호함 때문에 애초 AI의 완전한 텍스트 이해를 위한 완벽한 토크나이저는 현재로선 불가능할 것이란 지적이다.
문제는 LLM이 더 많은 언어를 배울수록 더욱 그런 오류가 잦게 된다는 사실이다. 일부 ‘토큰화’ 방법은 문장의 공백이 항상 새 단어 앞에 온다고 가정할 수 있다. 그러나 이는 로마자 계통의 언어에 해당하는 이론이다. 한국어, 중국어, 일본어, 태국어, 라오스어, 크메르어 등 아시아권의 많은 언어는 공백을 통해 단어를 구분하지는 않는다.
이에 구글 딥마인드 AI 연구원인 예니 준은 “2023년 연구 결과 일부 언어는 동일한 의미를 전달하기 위해 영어보다 최대 10배나 많은 토큰이 필요하다는 것을 발견했다”고 테크크런치에 밝혔다.
그는 “모델이 토큰화를 부과하지 않고 문자를 직접 살펴보도록 하는 것이 가장 좋은 방법”이라면서도 “현재 기술로는 트랜스포머가 그런 식으로 연산하고 해석하도록 하는 것은 불가능한 일”이라고 했다.
현재 미드저니나 달리(DALL-E)와 같은 이미지 생성기는 챗GPT와 같은 텍스트 생성기와 같은 트랜스포머 아키텍처를 사용하지 않는다. 대신 이미지 생성기는 일반적으로 ‘노이즈’에서 이미지를 재구성하는 ‘확산 모델’을 사용한다. ‘확산 모델’은 대규모 이미지 데이터베이스에서 학습되며, 학습 데이터에서 학습한 것과 유사한 것을 재생성하려는 동기가 작동한다.
또 다른 전문가들은 “이미지 생성기는 자동차와 사람의 얼굴과 같은 인공물에서 훨씬 더 뛰어난 성능을 보이는 반면, 손가락과 필기도구와 같은 작은 물체에 대해선 그렇지 않다”고 분석하고 있다.
그런 작은 세부 사항들은 나무가 보통 푸른 잎을 가지고 있는 것과 같은 (너무나 당연한) 개념만큼이나, 훈련 세트에서 두드러지게 나타나지 않기 때문일 수도 있다. 그러나 ‘확산 모델’의 문제는 트랜스포머가 안고 있는 문제보다 해결하기가 더 쉬울 수 있다는 주장도 있다. 예를 들어 일부 이미지 생성기는 실제 인간 손에 대해 더 많은 이미지로 훈련한 결과 손을 더욱 사실감있고 정밀하게 표현할 수 있었다.
예를 들어, 흔히 여섯 개나 일곱 개의 손가락이 있는 손을 보면, “손가락 같네”'라고 말할 수 있다. 마찬가지로 생성된 텍스트의 경우, ‘H’처럼 보이고 ‘P’처럼 보인다고 구분해서 말할 수는 있지만, 이 모든 것을 함께 구성하는 데 있어선 AI는 서툴 수 밖에 없다.
오픈AI, LLM 트랜스포머 개선 착수
앞서 Strawberry’ 철자에 대한 이러한 오류 사실이 인터넷을 통해 알려진 후 이 소식을 들은 오픈AI가 팔을 걷어붙이고 나선 것으로 알려졌다. 추론에 더욱 능숙할 것으로 추정되는 코드명 ‘Strawberry’라는 새로운 AI 제품을 개발하고 있다는 소식이다. 그러나 LLM의 빌전은 챗GPT와 같은 제품을 더 정확하게 만들 만큼, 이 세상에 충분한 교육 데이터가 없다는 사실 때문에 한계가 있다.
그러나 새로운 AI 제품 ‘Strawberry’는 오픈AI의 LLM을 더욱 개선할 수 있는 정확한 합성 데이터를 생성할 수 있는 것으로 전해졌다. 기술매체 ‘The Information’에 따르면, 오픈AI의 ‘Strawberry’는 창의적 사고와 패턴 인식이 필요한 ‘New York Times’나, ‘Connections’와 같은 단어를 인식할 수 있고, 이전에 본 적이 없는 수학 방정식도 풀 수 있다는 소식이다.
한편, 구글 딥마인드도 최근 ‘AlphaProof’와 ‘AlphaGeometry 2’ 등 2개의 언어모델을 공개했는데, 이는 형식적 수학적 추론을 위해 설계된 AI 시스템다. 구글은 이들 시스템이 ‘국제 수학올림피아드’의 6개 문제 중 4개를 풀었다고 밝혔는데, 이는 여느 권위 있는 대회에서 은메달을 따기에 충분한 성과로 평가된다.
이처럼 AI가 ‘Strawberry’의 철자를 인식하지 못한다는 사실에서 오픈AI는 또다른 기회를 포착한 셈이다. 자신의 연구 풀에서 또 하나의 진전된 AI 시스템이란 ‘열매’를 가꾸는 셈이다.
