LLM보다 sLM가 ‘쓸모’…개발 경쟁 치열
MS․구글․AWS, 소규모(sLM)․경량화모델(sLLM) 출시 경쟁 “모델의 매개변수를 줄이고 미세조정, LLM 기능 수행” 국내․외 스타트업들도 개발 경쟁, ‘저비용․오픈소스’로 개발
[애플경제 전윤미 기자] 거대언어모델(LLM)은 막대한 비용과 시간이 든다. 그러나 웬만한 기업으로선 이를 구축하는게 힘들 수 밖에 없다. 이에 최근엔 대기업이나 빅테크들도 sLM(소규모언어모델, small Language Model)이나 그 보다 매개변수가 다소 많은 sLLM(경량거대언어모델, small Large Language Model)을 개발, 출시하는 경우가 많다. 대표적으로 MS, 구글, AWS 등도 앞다퉈 sLM, sLLM 개발에 주력, 시장을 선점하기 위한 경쟁을 벌이고 있다.
sLM, sLLM은 간단한 NLP 작업이나, 제한된 도메인 등 자원이 제한된 환경에서 주로 사용된다. 일종의 맞춤형 모델로서, LLM과 같은 기능을 수행하지만 모델의 매개변수를 줄이고 미세조정(finetune)을 가한 것이다. 한정적인 특정분야에 대한 깊이있는 데이터 학습이 가능하다. 또 경량화된 크기로 온디바이스 배포를 할 수 있고, 접근성이 향상되고 광범위한 GPU 리소스에 대한 의존도를 줄인다.
MS, sLM ‘Phi-2’ 출시
그 중 MS의 경우 지난해 12월 소규모언어모델 ‘Phi-2’를 출시했다. ‘Phi-2’는 현재 마이크로소프트 홈페이지에 공개되어있다.
최근 이들 빅테크의 sLLM 개발과 시장 추세를 분석, 소개한 한국컴퓨터산업협회는 이에 대해 “파라미터 수는 27억 개에 불과한 소규모 모델이지만, 최대 25배 크기의 LLM 모델과 성능은 동등할 정도로 위력을 발휘할 수 있다”고 평가했다.
이는 특히 트랜스포머 기반의 소규모 언어모델 시리즈다. 눈길을 끄는 것은 웹 데이터셋을 사용했다는 점이다. 작은 sLLM모델이지만 대규모 LLM모델과 동등한 성능을 내기 위한 것이다. 콘텐츠 품질에 따라 필터링한 웹 데이터셋을 활용해, ‘가성비’ 최대의 효과를 기하는게 목적이다.
구글, 오픈소스 sLLM인 ‘Gemma’ 출시
구글은 오픈AI GPT-4에 맞서기 위한 ‘제미니’를 출시한 바 있다. 구글은 그러나 실용성을 염두에 두고 오는 6월 오픈소스 sLLM인 ‘Gemma(젬마)’를 개발, 공개할 예정이다.
‘Gemma’는 매개변수가 20억개인 ‘2B’, 70억개인 ‘7B’ 등 2가지 버전으로 선보일 예정이다. 이는 sLLM 특유의 적은 데이터로 빠르게 학습하고, 실행할 수 있을 것이란 기대다.
구글은 “‘Gemma’는 또한 경량화된 소규모 언어 모델로 온디바이스 AI 구축에 적합하다”고 강조했다. 특히 “앞으로 노트북이나 데스크톱에서도 직접 실행할 수 있다”고 강조했다. 이는 특히 ‘Keras 3.0’을 통해 JAX, 파이토치, 텐서플로우와 같은 주요 프레임워크에서 추론 과 지도 학습을 위한 툴체인을 제공한다.
‘Keras 3.0’은 인간을 위한 딥러닝으로 Keras 워크플로우를 실행할 수 있는 버전이다.
AWS, sLLM ‘솔라미니’ 출시
AWS는 경량거대언어모델(sLLM)인 ‘솔라미니’를 3월 출시했다. AWS 측은 “전 세계 AWS 이용 기업들은 ‘솔라미니’를 활용해 자사의 맞춤형 생성AI 제품이나 서비스를 만들 수 있다”고 밝혔다. AWS측은 특히 가장 먼저 한국어와 영어 모델을 지원하고 있는 점이 눈길을 끈다. 올해 내로 연내 일본어와 태국어까지 확장될 예정이다.
‘솔라미니’는 고급 데이터 전처리와 검색 증강생성(RAG)등 미세 조정 기술을 사용한 것이다. 이를 통해 텍스트, 서적, 뉴스기사, 보고서 등 저작권 없는 다양한 고품질 한국어 학습데이터를 활용, 저작권 시비 등의 소지를 없앤 것이다. 이에 “문화적 뉘앙스를 파악하고 이해를 발전시켰다”는 설명이다.
AWS는 앞으로도 매개변수가 늘어난 ‘프로’와 ‘울트라’를 이어서 출시할 예정이다.
해외 스타트업, 대학도 sLLM 개발 경쟁
스탠퍼드대학교는 매개변수 70억 개의 소형언어모델 ‘알파카’를 내놓았다. 이는 52,000개 데이터를 기반으로클라우드 서비스에서 제공하는 컴퓨터 8대를 이용해 3시간 만에 훈련한 것이다. 이는 특히 이메일·SNS 글 작성 등에서 챗GPT와 비교한 결과 90개 항목에서 앞서는 성과를 보이고 있다.
미국의 SW 기업 데이터브릭스는 ‘돌리(Dolly) 2.0’을 출시했다. 이는 불과 100달러 비용으로 1대 서버에서 3시간 훈련해 구축한 매개변수 60억 개의 소형언어모델이다. 1.0 버전은 알파카의 데이터셋을 활용했고, 2.0버전은 데이터브릭스 자체적으로 구축한 데이터셋을 학습, 상업 목적으로 사용할 수 있다.
미국 AI 반도체 스타트업인 세레브라스도 다양한 패키지의 sLLM 모델을 공개했다. 매개변수 1억 개부터 130억 개 사이인 소형언어모델 7종(Cerebras-GPT7)을 오픈소스로 공개했다. 학습 시간이 짧고 학습 비용이 낮고, 소비전력이 적은 것이 특징이다.
역시 미국의 스타트업 ‘갓잇AI’는 클라우드를 이용하지 않는 온프레미스(사내구축)형 소형언어모델 ‘엘마’를 출시했다. 갓잇AI는 “모든 기업이 크고 강력한 모델이 필요한 것은 아니며 데이터가 외부로 반출되는 것을 원하지 않는 기업도 많다”고 설명했다.
영국의 스태빌리티 AI는 스테이블LM을 출시했다. 이는 텍스트와 이미지, 코드를 생성할 수 있는 대화형 오픈소스 언어모델이다. 매개변수 규모는 30억, 70억 개 두 가지 버전이다. 챗GPT 등 LLM과 달리 오픈소스로 공개했으며, 누구나 스테이블LM을 무료로 사용해 새로운 제품이나 기술을 개발할 수 있다. 영어·스페인어로만 대화할 수 있고 한국·일본·중국어 등 아시아권 언어는 제대로 지원하지 못하는 한계가 있다.
국내 스타트업도 개발 대열에 나서
국내기업들도 이런 개발 대열에 나서고 있다. 국내 AI스타트업인 ‘포티투마루’는 ‘LLM42’를 공개했다. 국내뿐 아니라 해외에 기술을 공급하고 있다. “챗GPT와 같은 초거대 언어모델(LLM)의 경량화 버전을 실현한 것”이라며 “솔루션 구축과 학습에 들어가는 비용을 크게 절감하고 기업용 프라이빗(Private) 모드를 지원한다”고 했다. 또 기업 내부 데이터와 민감한 고객 정보 유출 걱정 없이 안전하게 초거대 인공지능을 활용할 수 있다.
역시 국내 AI스타트업인 ‘스켈터랩스’는 sLLM 버전 ‘벨라(BELLA)’를 개발했다. 이는 다양한 과업을 수행할 수 있는 LLM 기반의 애플리케이션 개발과 도메인에 특화된 스켈터랩스의 독자적인 LLM 개발 등 크게 두 가지 영역으로 구분된다.
특히 기업 업무에 최적화된 독자적인 LLM 개발을 한층 강화하기 위해 도메인에 특화된 경량화된 ‘벨라-LLM(가칭)’을 개발했다.