세계적으로 ‘온디바이스 sLLM’ 개발 경쟁 가열

매개변수 수 십 억개가 보통, LLM보다 가볍고 효율적 스마트폰, PC, 노트북, 라즈베리 파이 등 클라우드없이 AI장착 구글, 메타, MS 등 앞다퉈 개발, 국내서 네이너, 이통3사 주도

2024-05-04     이윤순 기자
(사진=메타 스크린샷)

[애플경제 이윤순 기자] 온디바이스 환경에 적합한 생성AI 기반 소형언어모델(sLLM) 붐이 전세계적으로 일고 있다. 국내에서도 네이버와 이동통신3사, 일부 스타트업들도 이런 추세를 같이하고 있다. 마이크로소프트도 온디바이스 환경에 적합한 ‘파이-3’ 제품군을 발표했고, 4.23), 메타는 오픈소스 ‘라마 3(Llama 3)’, 구글은 지난 2월 간단한 챗봇이나 언어 관련 작업에 유용한 ‘젬마 2B’와 ‘7B’을 각각 출시했다.

언어 모델이 1천억 개 이상이면 LLM으로 분류된다. 그러나 소형언어모델은 흔히 수십억 개의 매개변수만으로 연산 작업을 단축시킨 효율적인 모델이다. sLLM이 처음 주목받기 시작한 것은 2023년 초 무렵이다. 당시 메타는 미국 스탠포드대와 함께 ‘라마’를 기반으로 한 sLLM ‘알파카(Alpaca)’를 개발했다. 당시 ‘라마 1’은 기본형인 66B(매개변수 650억 개)를 비롯해 다양한 크기의 버전을 선보였다. 가장 작은 모델은 매개변수가 70억 개(7B 버전)에 불했으며, 130억개, 700억 개 등 3종이 출시되었다.

인터넷 연결 필요없어 온디바이스 AI 시장서 각광

sLLM은 매개변수가 적은 만큼 LLM에 비해 더 적은 컴퓨팅(처리 과정) 자원으로 최대한의 효율을 낼 수 있으며 그만큼 훈련 시간이나 비용, 용량, 전력 소모량이 훨씬 절감된다. 특히 인터넷 연결이 필요없기 때문에 아무데서나 모바일·노트북 등 전자기기에 곧바로 적용할 수 있어, 온디바이스 AI 시장에서 각광받고 있다.

이는 인터넷에 연결해 특정 사이트에 접속하거나 앱을 설치해야 하는 ‘클라우드 AI’와도 다르다. 온디바이스 AI는 클라우드를 거치지 않고 기기 자체에 탑재된 AI를 구동하는 방식이다. 별도의 통신 연결이 없어도 PC나 스마트폰으로 AI를 작동할 수 있다. 이를 위해선 가볍고 빠른 sLLM이 더욱 생산적이며 효율적일 수 밖에 없다.

MS, ‘파이-3-미니’ 제품군

이에 세계 주요 빅테크들은 앞다퉈 sLLM영역에 뛰어들고 있다. 마이크로소프트는 지난 4월 23일 성능이 뛰어나고 비용 효율적인 소형언어모델로인 ‘파이-3(Phi-3)’ 모델 제품군을 오픈소스로 개방했다. 또 38억 개 매개변수의 ‘파이-3-미니(Phi-3-mini)’에 이어 몇 주 안에 70억 개이 ‘파이-3-소형(Phi-3-small), 140억 개의 ’파이-3-중형(Phi-3-medium)‘ 모델을 공개할 예정이다.

‘파이-3-미니(Phi-3-mini)’는 3조 3,000억 개의 토큰으로 훈련된 38억 개의 매개변수 언어 모델이다. 이는 4,000개나 28,000개 토큰 등 두 가지 컨텍스트 길이로 변형할 수 있다. “품질에 거의 영향을 주지 않으면서 최대 128,000개 토큰의 컨텍스트 창을 지원하는 동급 최초의 모델”이란 설명이다. 이는 미스트랄 8x7B(Mixtral 8x7B)이나 GPT-3.5 등과 동급의 모델로 평가된다.

이는 기존 대형언어모델에 비해 훨씬 가볍고 저렴해 휴대폰, 노트북, 라즈베리 파이(Raspberry Pi) 등 엣지에서 배포할 수 있을 만큼 작다. 그럼에도 불구하고 수학·물리학·역사 등을 종합적으로 평가하는 MMLU(다중작업언어이해) 평가에서 69%, MT-bench에서 8.38을 각각 달성하는 등 우수한 성능을 인정받았다.

메타, ‘라마2’, ‘라마3’ 등 개발

메타 역시 지난 4월18일 다양한 목적으로 사용할 수 있는 오픈소스 형태의 ‘라마 3(Llama 3)’를 챗봇과 코딩 지원에 사용되는 소형 모델(8B, 70B) 2개 버전으로 공개했다. 라마는 모델과 일부 소스코드를 오픈소스로 공개, 이른바 ‘AI 민주화’를 이끈 LLM으로 평가된다. 전작인 라마-2부터 매개변수 70억 개를 투입한 경량화 모델 ‘라마-2 7B’를 개발했다.

특히 라마3 70B 모델도 MMLU 평가에서 79.5점을 받아 구글 제미나이 프로 1.0(71.8점), 미스트랄AI 믹스트랄(77.7점)을 앞섰다.

(사진=테크레이다)

구글, ‘젬마 2B’, ‘7B’ 등

구글도 지난 2월 간단한 챗봇이나 언어 관련 작업에 유용한 파라미터 젬마 2B와 7B를 출시했다. 젬마(Gemma)는 최신 AI 모델 ‘제미니(Gemini)’ 개발에 사용된 동일한 연구 기술로 구축된 초경량의 오픈 AI 모델 제품군이다. 매개변수가 20억 개인 ‘젬마 2B(Gemma 2B)’와 70억 개인 ‘젬마 7B(Gemma 7B)’의 2개 버전으로 출시되었다.

구글이 밝힌 벤치마크 데이터에 따르면 매개변수 70억 개를 기준으로 젬마는 평균 64.3점을 기록해 메타의 LLM ‘라마2’가 받은 45.3점을 능가했다.

이는 “비용 효율적인 앱 및 소프트웨어 개발을 위해 설계됐으며, 향후 온디바이스 AI용으로 개발자의 노트북이나 데스크톱 컴퓨터에서 직접 실행할 수 있다”는 구글의 설명이다. 이용자는 노트북, 워크스테이션 또는 구글 클라우드 버텍스 AI, 구글 쿠버네티스 엔진(GKE) 등 환경에서 실행할 수 있고, 오픈 모델인 만큼 외부 개발자 툴에서도 손쉽게 이용할 수 있다.

네이버 ‘하이퍼클로바X’의 경량화 버전 ‘대시’ 공개

한편 국내 업계도 이 같은 흐름에 맞춰 경량화한 sLLM 개발에 합류하고 있다. 네이버는 “LLM 개발에 주력하되, 비용 절감을 위해 쓰임에 따라 다양한 모델을 출시하고 비용문제를 해결하기 위해 글로벌 빅테크와 손잡고 생태계를 확장하고 있다.”고 했다.

AI 개발 도구 ‘클로바 스튜디오’에 자체 초거대 AI 모델 ‘하이퍼클로바X’의 경량화 버전인 ‘대시(HCX-DASH)’를 공개했다. HCX-DASH는 문장 생성이나 요약 등 비교적 단순한 업무보고서를 작성하거나 맞춤형 챗봇을 구현하는 데 적합한 모델로 알려졌다. 특히 고객사는 클로바 스튜디오에서 기존 제품가격의 5분의 1 가격으로 신규 모델을 이용 할 수 있다.

AI스타트업들도 sLLM 경쟁에 뛰어들었다. 업스테이지는 자체 sLLM ‘솔라 미니’를 아마존웹서비스(AWS)를 통해 출시했다. 또 솔트룩스는 AI 파운데이션 모델인 ‘루시아GPT(매개변수 70억∼500억 개로 다양)’를 발표했다. 이는 매개변수가 70억·130억·200억·500억 개로 다양하게 구성, 기업에서 사용 목적과 예산에 맞춰 합리적인 비용으로 도입할 수 있다는 평가다.

이통3사, SK 에이닷, KT ‘믿음’, LGU+‘익세젠’ 등 출시

국내 주요 통신사들도 빅테크에 대항해 경량형 언어모델과 AI 에이전트(비서) 개발에 집중하고 있다. SK텔레콤은 AI 에이전트 앱 ‘에이닷(A.)’의 효율적 활용과 서비스 품질 향상을 위해 미국 실리콘밸리 계열사인 ‘글로벌 AI플랫폼 코퍼레이션’의 LLM도 활용할 예정이다. 또 KT는 LLM ‘믿음’을 2023년 상용화한 데 이어 올해는 sLLM을 동시에 제공하는 멀티옵션(다중선택)전략을 구사할 것으로 알려졌다.

LGU+도 LLM ‘엑사원’을 기반으로 통신에 특화한 sLLM ‘익시젠’을 올 상반기에 구축할 예정이다.