국내 스타트업들, AI캐릭터 제작 위해 특화된 sLLM 구축․보급
‘캐릭터 프롬프트, 대화 히스토리, 발화 위한 최소한의 토큰나이저’
최소한의 컴퓨팅 리소스로 효율적 학습과 빠른 추론 속도 기해
[애플경제 전윤미 기자] 최근엔 AI에 관한 특별한 전문성을 갖추지 못한 사람들도 AI캐릭터를 쉽게 만들 수 있다. 그런 가운데 국내에서도 이를 위해 비용과 시간이 많이 드는 대형 언어모델(LLM) 대신 효율적인 토큰화(토크나이저)를 위한 소형언어모델(sLLM)이 구축, 활발히 보급되고 있다. 특히 AI캐릭터 솔루션을 보급하고 있는 스타트업들이 이 분야 기술에 앞장서고 있다.
최근 AI캐릭터 솔루션 ‘핑퐁-2’를 개발, 관심을 모으고 있는 스타트업인 스캐터랩은 “sLLM은 파라미터 수가 LLM에 비해 작고 특정 영역에서 대규모 데이터를 학습시켜 일상 대화, 전문 용어, 관용어 등 특정 도메인과 언어에 대한 자연어 처리에 강력한 성능을 기대할 수 있다”면서 “모델 크기가 작은 만큼 컴퓨팅 리소스가 적게 들고, 학습 및 추론 속도가 빠르다는 장점이 있다”고 그 특장점을 요약했다.
이는 또 “원하는 AI를 합리적인 비용으로 제작하여 빠른 속도로 서비스할 수 있게 하는 것이 차별화 포인트”라고 했다.
LLM, 스타트업들로선 감당키 어려워
사실 LLM서빙을 할 경우 작은 스타트업들로선 감당하기 어려운 문제들이 발생한다. 너무나 비싼 GPU 서빙 비용에다, 클라우드 GPU 리소스의 부족, LLM모델을 탑재하기 위한 GPU 메모리의 한계, CUDA 기반의 서빙 최적화 소프트웨어의 부재 등이 그런 요인들이다.
토크나이저(Tokenizer)도 문제다. 토큰은 자연어 처리(Natural Language Processing, NLP) 분야에서 사용되는 도구나 알고리즘 중 하나다. 다시 말해 텍스트를 작은 단위로 분리하는 역할을 한다. 이러한 작은 단위가 토큰(Token)으로, 텍스트를 토큰으로 분해해서 기계학습 모델에 입력하거나 다양한 자연어 처리 작업에 사용할 수 있다.
즉, 텍스트 토큰화는 주어진 텍스트를 문장, 단어, 또는 문자 등의 토큰으로 분리한다. 그래서 텍스트에서 추출한 토큰들을 기반으로 어휘를 생성, 관리한다. 이때 어휘는 모든 가능한 토큰의 집합을 나타내는 것이다.
이 경우 인코딩 토큰의 경우, 토큰들은 숫자 또는 벡터 형태로 인코딩, 기계학습 모델에 입력된다. 또 문장의 시작과 끝을 나타내는 특수 토큰(CLS, SEP 등)을 추가하거나 ‘패딩 토큰’을 삽입, 텍스트를 모델에 맞게 가공하곤 한다.
그런 과정에서 최근엔 BPE(Byte Pair Encoding) 토큰화 기법이 많이 사용된다. BPE는 말뭉치(Corpus) 기반 하위 단어 토큰화 알고리즘이다. 이는 다양한 자연어 처리 작업과 언어에 대해 가장 효과적인 방법으로 알려져있다. 특히 LLM에서 BPE는 매우 효과적이며 성능도 뛰어나다.
이는 텍스트를 적절하게 분할, 어휘 크기를 줄이고 희귀한 단어를 다루는 데 좋다. 언어 모델의 효율성을 향상시키고, 자연어 처리 작업에서 성능을 개선할 수 있다. 특히 심층 학습 모델에서 중요하며, 많은 NLP 라이브러리와 모델에서 이 기법을 활용하고 있다.
대화 추론에 필요한 최소한의 토큰으로 충분
만약 AI캐릭터의 경우 만약 LLM을 탑재하려면 적어도 대화 추론에 필요한 토큰 수가 엄청나다. 그러나 인공지능개발 사이트를 운영하는 한 전문가는 “(sLLM으로) ‘캐릭터 프롬프트, 여러 대목의 대화 히스토리, 발화 등을 소화하려면 2천여개 정도의 토큰이면 된다”면서 대화추론에 필요한 유지 비용도 ’2천여 개 토큰×누적 대화량 9억건×토큰당 비용‘ 정도로 LLM에 비해 매우 저렴한 비용만 든다“고 했다.
이처럼 저비용의 고효율을 기하는 sLLM은 쉽게 말해 맞춤형 LLM에 가깝다. 매개변수(Parameter)를 줄여서 비용을 아끼고, 특정 분야에 한정된 깊이있는 지식을 갖추게 한 것이다. 광범위한 지식을 망라하는 LLM과는 달리 특정 분야에서만 깊이 있는 데이터를 학습함으로써 딥러닝과 운영 비용 부담이 적다.
앞서 스캐터랩의 경우 sLLM을 통해 AI캐릭터에 필요한 대화퀄리티, 즉 관계를 만들 수 있는 대화 모델을 구축했다. 또 관계 대화에 필요한 기능, 즉 선특이나 이미지 구현 등의 문제를 해결했다. 수많은 트래픽에 필요한 많은 운영비용을 절감하고, 오픈AI의 불안정성을 극복할 수 있다는 얘기다.
한편 앞서 스캐터랩은 최근 AI캐릭터 제작을 위한 핑퐁-1(Pingpong-1)이라는 sLLM을 발표했다. 이는 소셜 인터랙션에 특화된 AI와 자체 기술력으로 개발한 것으로 알려졌다.
