LLM(Large Lanuage Model, 대형언어모델)은 사람의 언어생태와도 많이 닮았다. 아니 닮았다기보단, 그 복제판이라고 할 정도다. 인간이 수천, 수만 년 지적 혈맥을 타고 보전해온 언어적 유전자를 어설프게나마 흉내낸 것이라 해도 과언이 아니다. 그 동안 현상의 모습을 모방한데 불과했던 기존 인공지능 기술을, 생성AI가 간단히 뛰어넘는 것도 같은 이치다. 인류문명을 ‘존재’ 너머 ‘생성’이란 새로운 주소지 변경으로 파악해온 일부 문명학자들의 사유가 생성AI로 표면화된 것이다. 그런 사유의 기술문명적 징표가 바로 LLM이다.

초대형 생성AI의 성능을 좌우하는 것은 LLM의 매개변수(패러미터)다. 매개변수는 학습용 데이터를 보관하는 장소와 같다. 인간 두뇌의 뉴런 정보를 실시간으로 연결해주는 통로인 시냅스와도 비슷하다. 수많은 데이터를 긁어모으고, 그것으로 정반합의 무수한 경우의 수를 조합하면서, 고도의 의사결정력을 연마하는 것이다. 당연히 매개변수가 많을수록 인공지능은 높은 성능을 보일 수 밖에 없다. 그래서 AI기업들은 너나없이 매개변수를 늘리려 안간힘을 쓴다. 온갖 소셜미디어나 인터넷, 기왕의 생성AI 프롬프트를 휘저으며, 데이터를 수집하느라 혈안이 되어있다.

오죽하면 일전에 일론 머스크가 “X(트위터)에 올라오는 콘텐츠를 함부로 갖다쓰는 것은 비도덕적”이라며 AI 개발 경쟁사들을 향해 핏대를 올렸을까. X콘텐츠 전반을 아우르며, X-블루와 체크마트 요건을 까다롭게 하는 등 유료 기반의 구독 요건을 강화한 데엔, 그런 괘씸함도 일부분 작용했다.

LLM은 그렇게 애써 긁어모은 수많은 데이터 조각들과, 이를 다시 의미를 지닌 반응체로 응결해내면서 비로소 빛이 난다. 오픈AI의 GPT-3.5가 1,750억개, 구글의 LLM인 ‘PaLM’이 5,400억 개까지 매개변수를 늘린 것도 그 때문이다. 조만간 1조 개가 넘어가는 초거대언어모델도 등장할 것이라니 두고 볼 일이다.

대형언어모델 LLM은 사람이 내는 ‘소리’의 조음(調音)과도 비유할 법하다. 사람이 제각기 내는 ‘소리’들끼리의 곁고 트는 어울림, 곧 음운대립을 연상케 한다. 이때 LLM 제작을 가능하게 하는 수많은 데이터와 콘텐츠 조각들은 곧 ‘소리’와 ‘음성’과 등치시킬 수 있다. 언어학자 페르디낭 소쉬르가 말하는 ‘변별적 음운 단위’라고 할까. 음운은 변별적 요소로서, 다른 음운과의 관계에 의해서만, 그의 표현 위치가 지적된다고 했다. 소리의 변별과 대립으로 언어가 조음되고 구성된다는 개념이다. 조각조각 긁어모은 데이터를 재구성하고, 학습한 LLM이 결국 생성적 반응을 가능하게 하는 것도 이와 크게 다르지 않다.

곧 음소(데이터나 콘텐츠)와 또 다른 음소 간의 공통적 특성으로 의미값(반응체)을 갖게 되고, 인간언어 생태계의 ‘파롤’(Parole)과도 같은 언어적 기능과 역할을 부여받는 것이다. 생성AI의 일문일답과 초보적 사고능력의 프롬프트 기능이 이와 닮았다. '파롤'은 한 개인의 사적인 발화행위라고 할까. 개별적으로 처한 무수한 언어상황마다, 그에 맞는 구체적인 언어 기호를 결합해서, 의미있는 언술을 산출하는 개인의 말(wording)과 같다. 놀랍게도 지금까지의 생성AI 내지 LLM 기술은 이 정도 경지에 도전하고 있다.

그러나 알다시피, 그런 LLM 기반의 생성AI는 숱한 거짓말과 기만, 허위, 혹은 엉뚱한 답변으로 ‘무식함’을 감추려는 태도로 불신을 사곤 한다. 거짓된 ‘파롤’만을 일삼아 세상을 능멸하는 인간언어의 못된 버릇을 닮았다고 할까. 자칫 언어공동체가 그런 비뚤어진 기계언어로 더욱 오염될까 걱정될 정도다. 그것에 물든 자연어의 음운과 어휘, 문범 규칙 따위에 지배당하면 어쩌나 싶기도 하다. 실제로 그런 저질의 ‘파롤’이, 사회집단이 공유, 공감하는 관습적 언어 태도인 ‘랑그’(Langue)로 응집되면 큰일이 아닐 수 없다.

하긴 엄청난 양의 데이터를 기반으로 한 최근의 LLM기반의 AI 중엔 인간의 ‘공감’능력을 지닌 것도 있다고 들었다. 심지어는 “인간보다 더 뛰어나다”는 주장도 있다. 물론 아직은 대부분 상업적 동기의 고객응대용 AI가 대부분이다. ‘AI가 왜 그런 결정을 하게 되었는가’를 묻는 ‘설명 가능한 AI’에 대한 요구도 크다. AI 결정의 편향성을 줄이고 신뢰도를 높이자는 뜻이다.

다시 인간언어로 환원하자면, 이는 ‘공감을 바탕으로 한 양질의 ‘파롤’에 대한 목마름과도 같다. 그런 ‘파롤’이 모여 설명 가능한 ‘랑그’가 되고, 또 다시 그런 ‘파롤’과 ‘랑그’가 모인, 품격있는 한 시대의 언어능력 ‘랑가주(Langague)’를 갈망하는 것이기도 하다. 

저작권자 © 애플경제 무단전재 및 재배포 금지