촘스키 등 주류 언어학계 “‘분석’커녕 언어에 대한 추론도 불가”
일부 실험에선 오픈AI ‘o1’ 제외하곤 대부분 LLM이 ‘분석’ 실패
‘o1’모델, ‘재귀’와 같은 복잡한 언어적 특징 이해, 활용하기도
“특정 실험 한 가지만으로 LLM 언어 분석 능력 인정할 수 없어”
[애플경제 전윤미 기자] AI모델이 단순히 언어를 이해하는 수준이 아니라 메타언어를 포함해 ‘분석’하는 능력이 있을까. 이에 대한 논쟁은 오래도록 이어지고 있다. 일찍이 언어학자 노엄 촘스키로 대표되는 석학들 중엔 그런 ‘분석’ 능력은커녕 언어 자체에 대한 추론 능력도 없다고 본다. 이에 반해 또 다른 언어학자들은 “AI 모델이란 기계가 최초로 인간 전문가만큼 언어를 분석할 수 있을 것”이라고 반박하며, 기존 구조주의 언어학의 권위에 도전하기도 한다.
그 동안 많은 언어학자들은 언어 모델, 즉 LLM은 ‘언어 자체’에 대한 추론 능력을 가지고 있지 않다는 의견이 주를 이뤘다. 세계적인 언어학자 노엄 촘스키와 다른 두 명의 공동 저자가 2023년 뉴욕 타임스에 기고한 글이 대표적이다. 이들은 “언어에 대한 정확한 이해와 설명은 복잡하며, 빅데이터에 푹 빠져서만 학습해선 불가능하다”고 주장했다. 이는 현재까지도 언어학계와 인공지능 연구자들에게 일종의 ‘정전’(正典)‘으로 받아들여지고 있다.
이들 학자와 연구자들은 “AI 모델이 언어 사용에는 능숙할지 몰라도 정교하게 언어를 분석할 능력은 없다”고 결론지었다.
기존 학계, “언어사용 능숙해도, 분석 능력은 없어”
그러나 최근 이런 관점은 촘스키의 후학자들에 의해 도전을 받고 있다. 캘리포니아대 버클리의 언어학자 가스페르 베구스, 버클리에서 언어학 박사 학위를 받은 막시밀리안 동브코프스키, 그리고 러트거스 대학교의 라이언 로즈 등은 최근 발표한 논문에서 기존 언어학계의 주류 이론을 반박했다.
연구진은 일단 여러 가지 LLM을 대상으로 다양한 언어학적 테스트를 시도했다. 우선 LLM이 ’가상 언어‘의 규칙을 일반화하는 능력을 검증했다. 대부분의 LLM은 인간처럼 언어학적 규칙을 분석하는 데 실패했다. 그러나 유독 한 가지 LLM은 기대를 크게 뛰어넘는 놀라운 능력을 보여주었다. 이는 언어학 대학원생이 문장을 도식화하고, 여러 모호한 의미를 해결하면서 ‘재귀’(reflexive)와 같은 복잡한 언어적 특징을 활용하는 것과 거의 같은 방식으로 언어를 분석할 수 있었다. 이들 학자들은 “이는 AI의 능력에 대한 우리의 이해에 도전하는 것”이라고 평가했다.
그들 뿐 아니다. 예일대학교의 계산 언어학자인 톰 맥코이는 “이 연구결과는 매우 중요하다”면서 “언어 분석 능력은 언어 모델이 인간처럼 추론할 수 있는 정도를 평가하는 데 이상적인 시험대”라고 의미를 부여했다.
다만 테스트 과정에서 한 가지 조건은 모델이 이미 답을 알고 있지나 않는지 확인하는 것이다. AI모델은 흔히 방대한 문서와 서면 정보로 채워진다. 수십 내지 수백 개 언어로 된 인터넷 자료뿐만 아니라 언어학 교과서와 같은 자료를 학습하는 것이다. 이론적으론 훈련 과정에서 입력받은 정보를 단순히 암기하고 반복할 수 있다.
일부 학자들, ‘재귀’와 트리 다이어그램 실험 통해 ‘반박’
이를 방지하기 위해 학자들은 네 부분으로 구성된 언어 테스트 방식을 만들었다. 그 중 세 부분은 모델에게 특별히 제작된 문장을 ‘트리 다이어그램’을 사용, 분석하도록 요청하는 것이었다. ‘트리 다이어그램’은 촘스키의 1957년 저서 <구문 구조(Syntactic Structures)>에서 처음 소개되었다. 문장을 명사구와 동사구로 나누고, 다시 명사, 동사, 형용사, 부사, 전치사, 접속사 등으로 세분화하는 것이다.
또 다른 시험에선 ‘재귀’, 즉 구 안에 구를 삽입하는 능력에 초점을 맞췄다. 즉, 간단한 문장을 조금 더 복잡한 문장에 삽입했다. 중요한 것은 이런 재귀 과정이 무한 반복될 수 있다는 점이다. 예를 들어, 한 섬에 호수가 있고, 그 호수 안에 다시 섬이 있고, 그 섬에 다시 작은 연못이 있으며, 연못 한 가운데에 다시 작은 모래섬이 있다는 식이다.
촘스키를 비롯한 여러 학자들은 ‘재귀’를 인간 언어의 결정적 특징 중 하나로 꼽았다. 어쩌면 이는 인간 정신의 결정적 특징이라고 할 수도 있다. 무한 상상의 또 다른 결과이기도 하다. 촘스키 등도 평소 “‘재귀’의 무한한 잠재력 덕분에 인간 언어가 유한한 어휘와 유한한 규칙으로 무한한 수의 문장을 생성할 수 있다”고 주장해 왔다. 그러나 인간 외의 다른 동물들이 재귀를 정교하게 사용할 수 있다는 증거는 없다.
‘재귀’는 문장의 처음이나 끝에서 발생할 수 있지만, 가장 숙달하기 어려운 형태인 ‘중심 임베딩’(center embedding)은 문장의 중간에서 발생한다. 예를 들어 “고양이가 죽었다”가 다시 “개가 물어뜯은 고양이가 죽었다”로 이어지는 식이다.
이에 연구진은 언어 모델에게 까다로운 ‘재귀’ 예시가 포함된 30개의 독창적인 문장을 제공했다. 예를 들어,“"우리가 존경하는 고대인들이 연구했던 천문학은 점성술과 분리되어 있지 않았다”와 같은 문장이다. 언어 모델 중 하나인 오픈AI의 ‘o1’은 구문 트리를 사용, 문장이 다음과 같이 구조화되어 있음을 확인할 수 있었다.
즉 “(우리가 존경하는) 고대인들이 공부한 천문학은 점성술과 분리될 수 없었다.”는 문장으로 분석했다. 나아가선 문장에 재귀적 구조를 추가하기도 했다.
이는 연구진도 놀랄만한 결과였다. 애초 더 높은 수준의 ‘메타언어적’ 능력, 즉 단순히 언어를 사용하는 능력뿐만 아니라, “언어에 대해 생각하는 능력”을 가진 AI 모델을 접하게 될 것이라고는 예상하지 못했다.
이는 그간의 논쟁에 새로운 국면을 제시한 결과로 평가된다. 그 동안 많은 학자들 간엔 “언어 모델이 단순히 문장의 다음 단어(또는 언어적 토큰)를 예측하는 것”인지, 아니면 “인간이 가진 심층적인 언어 이해와는 질적으로 다른 것인지”에 대한 논쟁이 있었다.
이에 대해 카네기 멜론 대학교의 계산 언어학자 데이비드 모텐슨은 “언어학계의 일부 사람들은 LLM이 실제로 언어를 다루는 것이 아니라고 주장하지만, 이번 연구는 그런 주장이 틀렸다는 것을 보여주는 것”이라고 연구진의 손을 들어줬다.
“‘o1’, 인간만이 가능한 ‘모호성’ 인식 능력 보여줘”
앞서 예일대의 톰 맥코이 교수는 ‘o1’의 전반적인 성능, 특히 ‘모호성’을 인식하는 능력에 놀랐다고 한다. 그는 ‘모호성’은 “언어 계산 모델이 포착하기 매우 어려운 부분”이라고 했다. 그에 따르면 인간은 모호성을 배제할 수 있는 풍부한 상식과 지식을 가지고 있다. 하지만 컴퓨터가 그 수준의 상식적 지식을 갖추는 것은 어렵다는 얘기다.
또 다른 연구 결과도 눈에 띈다. 예를 들어 “A는 애완닭에게 먹이를 주었다”와 같은 문장에서 A가 닭을 애완동물로 키운다는 뜻이 뒬 수도 있고, 이와 달리 ‘반려동물에게 준 닭고기’(애완닭을 나중엔 반려동물이 먹이로)를 묘사하는 것일 수도 있다. 놀랍게도 ‘o1’ 모델은 이들 두 가지 서로 다른 구문 트리를 정확하게 생성했다. 즉 하나는 문장의 전자 해석, 또 다른 하나는 후자쪽 해석을 내렸다.
연구진은 또한 음운론 관련 실험도 했다. 소리의 패턴과 가장 작은 소리 단위인 ‘음소’의 구성 방식에 대한 연구도 병행했다. 우선 30개의 새로운 ‘미니 언어’를 만들어 LLM들이 사전 지식 없이도 음운 규칙을 정확하게 추론할 수 있는지 확인했다. 각 (미니)언어는 40개의 ‘가상 단어’로 구성되었다.
그런 다음 언어 모델에 각 언어의 음운 과정을 분석하도록 요청했다. 이에 대해 ‘o1’은 “모음 바로 앞에 유성음과 폐쇄음 두 가지가 동시에 존재하는 자음이 오면 기식음(breathy vowel)이 된다”라고 정확하게 음운론적 분석을 가했다. 여기서 폐쇄음은 ‘top’의 ‘t’처럼 소리의 기류를 제한하여 형성되는 소리다.
연구진은 “미니 언어들은 새롭게 만들어졌기 때문에 ‘o1’이 학습 과정에서 이런 언어에 노출되었을 가능성은 없다”면서 “그 결과가 이렇게 강렬하거나 인상적일 것이라고는 예상하지 못했다”고 스스로들 놀라워했다.
인간만의 ‘언어 분석 능력’을 AI가? “여전히 논쟁은 계속”
이러한 언어 모델은 어디까지 발전할 수 있을까? 더 큰 컴퓨팅 파워, 더 복잡한 구조, 더 많은 학습 데이터를 추가함으로써, 한계 없이 더 나아질 수 있을까? 아니면 인간 언어의 일부 특징은 우리 종에만 국한된 진화 과정의 결과일까?
최근 연구 결과는 이러한 모델이 원칙적으로 정교한 언어 분석을 수행할 수 있음을 보여준다. 하지만 아직까지 어떤 모델도 독창적인 결과를 내놓지 못했으며, 우리가 이전에 알지 못했던 언어에 대한 새로운 정보를 제공하지도 못했다.
이번 실험 결과를 바탕으로 연구진은 “언어 모델이 결국 우리 언어에 대한 이해를 우리보다 더 잘 보여주는 것을 인정하지 않을 이유가 없다”면서 “더 적은 데이터를 갖고, 더 창의적인 방식으로 일반화하는 모델을 구축하는 것은 시간문제일 뿐”이라고 장담했다. 그럼에도 “특정한 실험 한 가지만으로 언어모델의 언어 분석 능력을 인정하는 것은 경솔한 결정”이란 반론도 여전해서 논쟁은 이어질 것으로 보인다.
