‘가성비’ 높은 sLLM, 언어모델 시장 장악?
LLM보다 매개변수 수십분의 일, “그러나 성능은 비슷, 비용절감” 미세조정 통해 특정 과업 맞춤형 언어모델 구축, 소형기기에 탑재
[애플경제 전윤미 기자] 수천억개의 패러미터를 과시하는 초대형 LLM보다는 그 10분의 1 정도의 패러미터만으로도 실용성이 훨씬 뛰어난 소형 LLM(sLLM)이 급속도로 확산되고 있다. 실제로 공공 또는 민간 시장에서 LLM보다는 ‘가성비’가 뛰어난 sLLM이 빠르게 보급되고 있는 실정이다. 초대형 A AI시장은 장차 sLLM이 지배할 것이란 예측마저 나오고 있다.
최근 마이크로소프트 등 초대형AI 개발 주체들도 이를 인정하고 있다. 한국지능정보사회진흥원은 이를 인용해 “최근에는 패러미터의 수가 무조건 큰 LLM을 그대로 사용하는 것보다는 패러미터의 수가 훨씬 적으면서 유사한 성능을 보여주는 small LLM(sLLM)에 대한 연구가 지속되고 있다”고 밝혔다.
실제로 최근 마이크로소프트도 연구를 통해 “초거대 AI의 성능은 모델의 패러미터 갯수보다는 훈련 데이터의 품질에 더 의존한다”는 연구결과를 발표, 이같은 현실을 뒷받침하고 있다.
LLaMa-13B 매개변수, GPT-3의 10분의 1
이에 따르면 실제 메타의 LLaMa-13B는 GPT-3보다 10배 이상 작지만 더 뛰어난 성능을 보이는 것으로 나타났다.
또 LLaMa-65B는 딥마인드의 Chinchilla-70B, 구글의 PaLM-540B와 비슷한 성능을 보여주고 있다. 이는 곧 “국내외 초거대 AI 시장이 다양한 형태의 경량화 모델인 sLLM 모델 기반의 서비스 시장으로 빠르게 전환되고 있는 모습”이라는 분석이다.
이에 국내외에선 다양한 sLLM의 출시가 이어지고 있다.
특히 국내 스타트업을 포함한 AI 스타트업들이 개발한 sLLM 모델이 성능을 인정받으며, 경량화 모델 시장이 빠르게 성장하고 있는 추세다. 즉 “파라미터 규모나, 성능이 증가할수록 학습·운영에 필요한 컴퓨팅 자원도 증가함에 따라 비용 부담도 커질 수 밖에 없다”는 한국지능정보사회진흥원은 “이에 비용 부담이 적은 sLLM이 그 대안으로 부상하고 있는 것”이라고 해석했다.
경량화 모델(sLLM)의 가장 큰 장점은 특정 도메인 맞춤형 언어모델로 다양한 태스크를 수행할 수 있다는 사실이다. 즉, 소형기기에 모델을 탑재할 수 있어, 특정 기업이나 조직에게 알맞은 특화 언어모델로 관심을 끌고 있다.
매개변수의 수를 줄이고 미세조정(Fine-tuning)을 통해 정확도를 향상시키는 점도 장점으로 꼽힌다. 이는 곧 보안이 중요한 기관의 데이터 학습 적용에 유리하다는게 전문가들의 설명이다.
한국 기업들 sLLM 분야에서도 저력 과시
이에 국내에서도 다양한 기업의 sLLM들이 선보이고 있다. 독자적인 LLM 개발 분야에서도 미국, 중국에 이어 세계 3위의 저력을 보이고 있는 한국이 sLLM 분야에서도 저력을 과시하고 있는 셈이다.
SKT가 개발한 ‘KoGPT’도 대표적인 사례 중 하나다. 이는 GPT-3 기반의 인공지능 한국어 언어 모델이다. 기계 독해, 기계 번역, 작문, 감정 분석 등 높은 수준의 언어 과제를 해결할 수 있다.
‘코난테크놀로지’사도 순수 자체 개발 모델을 위해 매개변수가 131억개, 토큰 4,920억개, 한국어 토큰 2,840억개를 학습한 것으로 전해졌다. 이는 “타사의 오픈소스 모델을 미세조정한 것이 아닌 자체 개발 제품”이란 설명이다.
또 매개변수 400억개, 토큰 6,000억개, 한국어 토큰 4,000억개인 ‘코난 LLM 파운데이션 모델’을 10월 출시할 것으로 알려졌다.
이는 “자체 구축, 즉 온프레미스로 생성 AI 문제점인 보안문제를 해결한 것이 가장 중요한 특징”이란 설명이다. 기업(B2B), 정부(B2G) 서비스를 중심으로 최적화 지도학습이나 강화학습을 통해 문서 초안 생성과 요약, 질의, 응대 서비스에 특화된 제품이다.
국내 초거대 AI기업들인 네이버(하이퍼클로버), 카카오(KoGPT), A.(에이닷), KT(믿음), LG(엑사원)에 이어 6번째 출시인 셈이다.
생성형 초거대 AI 스타트업 기업인 42마루도 기업용 초거대 AI 경량화 모델인 ‘LLM42’를 출시했다. 진흥원에 따르면 이는 미국 스탠포드대 주관 글로벌 기계독해(MRC) 경진대회인 ‘스쿼드 2.0’에서 구글 AI팀과 공동 1위를 차지했다. 또 마이크로소프트가 주관한 언어 생성 경진대회 ‘GLGE’에서 1위를 달성하기도 했다.
한국지능정보사회진흥원 역시 ‘데이터댐’을 구축하고 있다. 이는 초거대 AI 말뭉치를 구축하고, sLLM 서비스를 구축하는 것이다. 진흥원에 따르면 이는 양질의 한국어 텍스트 300억개 토큰 이상을 반영한 것이며, 초거대 AI학습용 텍스트 데이터 200여종을 구축한 것이다.