토종 AI스타트업들 ‘sLLM’ 전선에서 ‘맹활약’

적은 비용, 짧은 시간에 효육적인 맞춤형 언어모델 개발 국내 스타트업, “대형언어모델 개발 앞선 전초전으로 sLLM 개발”도

2023-08-02     전윤미 기자
사진은 '2023 AI엑스포코리아'에 출시한 AI스타트업들의 모습으로 본문 기사와는 관련없음.

[애플경제 전윤미 기자] 빅테크 간 대형언어모델(LLM) 경쟁이 치열하게 전개되는 가운데 매개변수(Parameter)를 줄여 비용을 절감하고 훈련 시간을 단축하며 특정 분야에 효과적인 역량을 발휘할 수 있는 소형언어모델(sLLM)이 각광을 받고 있다.

특히 국내 AI스타트업들이 sLLM 개발에 적극 뛰어들고 있어 기대를 낳고 있다. 그 중 AI스타트업 ‘포티투마루’가 sLLM을 개발, 공개했고, 역시 스타트업들인 스켈터랩스, 엔씨소프트 등이 이를 적극 개발하고 있다.

특히 국내 스타트업들은 대형언어모델(LLM)을 개발하기에 앞서, 테스트베드의 일환으로 소형언어모델(sLLM)을 개발하는 경우가 적지 않다.

수십억, 수백억 수준의 매개변수로 충분

대형언어모델(LLM)은 약 수천 억 개 크기의 매개변수를 갖고 있어, 많은 비용과 시간이 걸린다. 정확하고 복잡한 작업, 방대한 컴퓨팅 자원이 필요하며, 많은 훈련 시간과 비용이 필요하다. 비용 부담이 크다보니 주로 글로벌 대기업들이 개발에 앞장서고 있다.

오픈AI ‘GPT 시리즈’, 구글 ‘팜’이 대표적이며, 중국 칭화대도 ‘GLM-130B’를 개발했다. 국내에선 네이버 ‘하이퍼클로바X’, LG AI 연구원 ‘엑사원’, 카카오 ‘KoGPT’, SKT ‘에이닷’, KT ‘믿음’ 등 주요 LLM 기반 생성AI제품과 서비스가 개발되었다.

이에 비해 소형언어모델(sLLM)은 매개변수가 불과 수십억, 수백 억 개 정도다. 스탠퍼드대의 알파카, 마이크로소프트 파이-1 등이 대표적이다. 이는 적은 컴퓨팅 자원을 활용해 학습할 수 있고, 특정 영역 언어에 특화된, 맞춤형 서비스가 가능하다. 또한 신속한 파인튜닝 등도 가능하다.

국내 스타트업, sLLM 기술 해외까지 공급

특히 눈길을 끄는 것은 잘 알려지지 않은 국내의 일부 AI스타트업들이 최근 sLLM 개발에 적극 나서고 있는 점이다.

한국지능정보사회진흥원 등 연구기관이나 언론매체 등을 통해 현재 가장 잘 알려진 AI스타트업으로 ‘포티투마루’라는 곳이 그 중 하나다.

이 업체는 지난 5월 이미 소형언어모델 ‘LLM42’를 개발, 공개함으로써 안팎의 시선을 모든 바 있다. 이 회사는 ‘LLM42’를 국내뿐 아니라 해외에까지 이미 기술을 공급할 것으로 알려졌다.

‘포티투마루’의 ‘LLM42’는 챗GPT와 같은 초거대 언어모델(LLM)의 경량화 버전을 실현한 것이다. 회사측은 “솔루션 구축과 학습에 들어가는 비용을 크게 절감하고 기업용 프라이빗(Private) 모드를 지원한다”면서 “기업 내부 데이터와 민감한 고객 정보가 유출될까 걱정할 필요없이 안전하게 초거대 인공지능을 활용할 수 있다”고 밝혔다.

LLM 개발 앞선 ‘경량화’ 버전으로 sLLM 개발

또 다른 토종 AI스타트업 ‘스켈터랩스’도 눈길을 끄는 업체다.

‘스켈터랩스’는 “소형언어모델(sLLM) 버전 ‘벨라(BELLA)’를 개발할 것”이라고 지난 6월 공개했다.이 회사가 개발하고 있는 ‘벨라’는 두 가지 영역으로 구분된다. 하나는 LLM 기반의 애플리케이션 개발이다. 또 다른 영역은 도메인에 특화된 스켈터랩스의 독자적인 LLM 개발이다. 즉, 독자적인 sLLM 기술을 갖추고, 그 영역을 기반으로 실용적인 애플리케이션을 개발한다는 계획이다.

이 회사는 특히 “기업 업무에 최적화된 독자적인 LLM 개발을 한층 강화할 예정”이라며 “ 도메인에 특화된 경량화된 ‘벨라-LLM(가칭)’을 자체 개발 중이며 올해 하반기에 공개할 것”이라고 밝혔다.

‘엔씨소프트’도 소형언어모델을 개발하고 있는 것으로 알려졌다. 이 회사는 우선 연말까지 초거대AI 모델 ‘바르코’를 개발할 것으로 전해졌다. 이를 출시하기에 앞서 먼저 자체적으로 소형언어모델(sLLM)을 공개할 예정이라고 했다.

그 결과 “자체 sLLM을 테스트베드 삼아 사내에 적용하고, 이를 초거대AI 개발에 활용할 것”이라고 계획을 밝혔다.

해외서도 다양한 sLLM 개발 ‘붐’

한편 해외에선 미국 스탠퍼드대학교가 매개변수 70억 개의 소형언어모델 ‘알파카’를 개발했다. 이는 52,000개 데이터를 기반으로 클라우드 서비스에서 제공하는 컴퓨터 8대를 이용해 3시간 만에 훈련을 끝냈다. 비용도 불과 600달러(약 79만 원) 수준으로 전해졌다.

마이크로소프트는 매개변수 13억 개를 가진 새로운 코딩 특화 언어모델 ‘파이-1’을 개발했다. 이는 그 보다 100배 크기인 GPT-3.5를 일부 능가했다는 연구 결과도 발표될 정도로 성능이 좋은 것으로 알려졌다. ‘파이-1’은 인터넷에서 수집한 60억 개의 토큰 및 GPT-3.5에서 생성된 10억 개의 토큰을 사용해 설계했다.

한편 마이크로소프트 리서치는 ‘파이-1-스몰(phi-1-small)’이라는 더 작은 모델도 개발(3억5천만 개 매개변수)했다.

미국 SW기업 데이터브릭스도 100달러 비용으로 ‘돌리(Dolly) 2.0’을 개발했다. 이는 1대 서버에서 3시간 훈련해 구축한 매개변수 60억 개의 소형언어모델이다.

이 밖에도 미국의 AI반도체 스타트업인 ‘세레브라스’, ‘갓잇AI’, 영국의 ‘스테빌리티AI’ 등도 sLLM을 개발했거나, 개발 중이다.