LLM 등장으로 ‘자연어 처리기술’ 가속화

언어모델링, 기계번역, Q&A 기능, 텍스트 생성과 요약, 감정분석 등 LLM 오픈소스로 개방, NLP기술 발전 촉진, “개방으로 인한 부작용” 지적도

2023-07-17     전윤미 기자
LLM 기반의 GPT를 설명하는 이미지. (출처=오픈AI 화면)

[애플경제 전윤미 기자] 초대형 생성AI의 기반이 되고 있는 LLM(Large Language Model)이 등장하면서, 이를 핵심으로 한 자연어 처리기술(NLP)도 빠르게 발달하고 있다. 구글에 따르면 LLM은 언어모델링, 기계번역, Q&A 기능, 텍스트 생성과 요약, 감정분석 등의 기능으로 NLP 기술을 크게 끌어올리면서, 생성AI의 바탕이 되고 있다.

KDB미래전략연구소 산업기술리서치센터가 최근 구글테크 블로그와 AWS 등을 참조하며 작성한 이슈브리프에 따르면, NLP 기술의 핵심인 언어모델(Language Model)은 LLM의 등장으로 산업 전반에 AI를 확산시키는데 중요한 역할을 하고 있다.

관련 브리프를 작성한 최성호 연구원은 “LM은 과거 통계적 모델(SLM)에서 인공신경망(트랜스포머) 모델로 발전하며 LLM의 초석을 마련했다”면서 특히 “NLP 작업 중 문장이나, 문단, 긴 텍스트의 흐름을 이해하고 문법, 의미, 문맥을 파악할 수 있는 특징을 갖고 있다”고 그 특성을 강조했다.

NLP에 적용되는 LLM 특유의 기능

이에 따르면 LLM은 특유의 단계적 기능을 통해 NLP를 한층 발전시키고, 초대형 생성AI의 기능을 높여가고 있다.

우선 ▲언어 모델링, 즉 주어진 문맥에서 다음 단어를 예측하는 언어 모델링 작업을 할 수 있다. 이를 통해 일부 문장만 제시하면, 스스로 다음 단어를 예측하고 문장을 자연스럽게 완성할 수 있게 된다.

또 번역기능도 출중하다. 즉, 입력된 문장을 다른 언어로 번역하는 과정에서, 문맥을 고려하여 더 자연스러운 번역 결과를 생성하는 ▲기계 번역 기능도 중요한 역할을 한다.

챗GPT나 바드의 핵심 기능인 ▲프롬프트나 Q&A 기능 역시, 고도의 대형 LLM으로 인해 질문과 관련된 문맥을 이해하고 정확한 답변을 생성할 수 있다.

또한 주어진 문맥에서 자연스러운 ▲텍스트를 생성하는 기능도 뛰어나다. 이를 통해 심지어 소설이나 시를 쓰고, 웬만한 신문․방송 기사 정도는 너끈히 써낼 수 있다.

LLM으로 인해 NLP 기술은 또한 긴 문서를 ▲요약하는 기능도 크게 향상되었다. 즉 입력된 문서의 핵심 내용을 파악하고, 중요한 정보를 요약해 한층 간결한 형태로 제공하는 것이다.

특히 인간의 ▲감정을 분석해내는 능력도 갖추고 있다. 이는 텍스트의 감정을 분석함으로써 글이나 문장에 스며있는 감정적인 톤을 이해하고, 그 맥락이 긍정 또는 부정적인지, 중립적인지 등을 판별할 정도다.

LLM 기반의 구글 바드 화면.

글로벌 기업 외 스타트업들도 ‘오픈소스’ 제공

이같은 LLM은 현재 오픈소스 형태로 공개되어, NLP 기술의 발전을 한층 촉진하고 있다. 최 연구원은 “특히 글로벌 AI 기업들의 LLM 오픈소스 공개로 인해, 이를 적용한 파생 제품이나 애플리케이션을 만드는 스타트업이 증가하고 있다”면서 “이에 따라 자연어처리 기술 생태계의 성장이 가속화되고, 구글이나 오픈AI처럼 특정 기업이 독점하던 LLM과는 별도의 시장이 형성되고 있다”고 진단했다.

이들 두 기업 외의 오픈소스 중엔 메타의 라마(LLaMA)나, 아마존의 ‘알렉사 티처 모델’, ‘알렉사TM’이 대표적이다. 또 스타트업인 데이터브릭스의 ‘돌리2.0’(Dolly2.0)이나, 스태빌리티 AI의 ‘스테이블LM-알파’(StableLM-Alpha)도 잘 알려져 있다.

그러나 LLM 오픈소스의 광범위한 확산으로 인한 부작용도 지적되고 있다. NLP기술 촉진과는 반대로, ‘개방에 의한 위협’이라는 부정적 측면이 우려되고 있다. 앞서 최 연구원은 “대표적으로 메타의 ‘라마’ 오픈소스가 성인용 챗봇 ‘앨리(Allie)’에 제한없이 사용된 사례”를 꼽으며, “LLM 기술의 발달이 오픈소스라는 개방성에 의해 위협이 될 수 있음을 고려한 정책적, 사회적 대응이 시급하다”고 주문하기도 했다.