‘가지치기’, ‘증류’ 등 LLM→SLM 축소 기술도 ‘진화’
‘얀 르쿤’에서 유례, “신경망 90% 매개변수, 성능 유지하며 제거” “큰 모델의 기반, ‘연결된 데이터 포인트’들의 거대한 그물 없애” ‘지식 증류’ 통해 LLM 학습, 소형모델에 전달도, “교실 수업 연상” 전문가들, “80억~100억개 매개변수로도 특정 성능에선 LLM 맞먹어”
[애플경제 전윤미 기자] 이젠 대형 언어모델(LLM)보다 소형 언어 모델(SLM)이 한층 각광을 받으면서, 그야말로 ‘SLM 시대’를 예고하고 있다. 물론 LLM이 성능이나 기능면에서 한층 다양하고, 막강하지만, 특화된 용도에 국한할 경우 SLM은 차지하는 공간이 작고, 적은 매개변수로도 충분히 그 목적을 이룰 수 있기 때문에 매력적인 도구가 되고 있다.
LLM을 용도에 맞게 축소하는게 관건
그러나 SLM이 대중화되면서 이를 용도에 맞게 축소하는게 또 다른 관건이 되고 있다. 과학 및 컴퓨팅 잡지인 ‘퀀타 매거진’(Quanta Magazine)에 따르면 이제 많은 연구소나 학계에서도 이런 소규모 모델을 선호하고 있다.
실제로 해외에서도 IBM, 구글, 마이크로소프트, 오픈AI 등이 모두 최근 수십억 개의 매개변수를 사용하는 소규모 언어 모델(SLM)을 출시했다. 물론 아직은 LLM 모델에 비해 극히 적은 숫자이긴하다.
이러한 소형 모델의 학습 프로세스를 최적화하기 위해 연구원이나 업계 전문가들은 몇 가지 방법을 사용다. 즉 대형 모델을 축소하는 것이다. 대형 모델은 흔히 인터넷에서 원시 학습 데이터를 가져오곤 한다. 그러나 이들 이 데이터는 체계적이지 않고 복잡하며 처리하기 어려운 경우가 많다. 다만 이런 대형 모델은 소형 모델을 학습하는 데 사용할 수 있는 고품질 데이터 세트를 생성할 수 있다는 점에서 의미가 있다.
다시 말해 LLM을 SLM으로 축소하는 것이나 다름없다. 그 과정에서 흔히 많이 쓰이는 방식이 지식 증류(knowledge distillation)다. 이는 SLM으로 축소하기 위해 쓰이는 대표적인 접근 방식이다.
앞서 ‘퀀타 매거진’은 “이는 마치 교사가 학생들을 대상으로 수업을 하는 것처럼 대형 모델이 효과적으로 학습을 (소형모델에게) 전달할 수 있도록 한다”고 했다. 또한 “SLM이 이렇게 작은 모델과 적은 데이터로 뛰어난 성능을 보이는 이유는 복잡한 데이터 대신 고품질 데이터를 사용하기 때문”이라고 LLM에 바탕을 둔 축소모델로서의 효용성을 강조했다.
얀 르쿤, “가지치기는 ‘최적의 뇌 손상’” 비유
전문가들은 좀더 확실하게 큰 모델에서 시작, 축소하는 방식으로 작은 모델을 만드는 방법도 연구해 왔다. 이른바 ‘가지치기(pruning)’가 대표적이다. 이는 말 그대로 LLM의 가지를 치는 방식이다. 대표적으로 LLM 신경망 가운데 불필요하거나 비효율적인 부분, 즉 큰 모델의 기반이 되는, 연결된 ‘데이터 포인트’들의 거대한 그물을 제거하는 방식이다.
일찍이 유명한 컴퓨터 과학자 얀 르쿤은 “‘가지치기’는 실제 신경망인 인간의 뇌에서 영감을 받았다”며 “인간의 뇌는 나이가 들면서 시냅스 간의 연결을 잘라내어 효율성을 높인다.”고 비유했다.
실제로 최근 가장 발달한 가지치기 접근법 역시 현재는 메타(Meta)에 근무하고 있는 얀 르쿤으로부터 비롯되었다. 르쿤은 이미 지난 1989년 자신의 논문에서부터 “훈련된 신경망에서 최대 90%의 매개변수를 효율성 저하 없이 제거할 수 있다”고 주장한 바 있다.
당시 그의 논문은 국제적으로 센세이션을 일으켰다. 그는 이 방법을 “최적의 뇌 손상”이라며 다소 모순된 명칭을 붙이기도 했다. 그래서 “‘가지치기’는 연구자들이 특정 작업이나 환경에 맞게 작은 언어 모델을 미세 조정하는 데 도움이 될 수 있다.”는 것이다. 오늘날 LLM을 넘어 SLM 시대를 예고할 수 있게된 기술적 터전이 당시 르쿤에 의해 이미 예고된 셈이다.
사실 LLM은 진작부터 범용의 영역이 아닌 한, 천문학적 비용과 에너지로 인해 한계를 보이고 있다. 수천억 개의 매개변수를 사용하는 모델을 학습하려면 막대한 컴퓨팅 리소스가 필요하다.
예를 들어, 구글은 제미니 1.0 울트라 모델을 학습하는 데 1억 9,100만 달러를 지출한 것으로 알려졌다. 또한 프롬프트에 응답할 때마다 상당한 컴퓨팅 파워를 필요로 하기 때문에 엄청난 에너지와 전기를 소모한다. 특히 챗GPT에 대한 단일 쿼리는 한 차례 구글 검색치보다 약 10배 많은 에너지를 소비하는 것으로 알려졌다. 그 때문에 날로 산업 전반에 걸쳐 SLM에 대한 수요가 날로 커지고 있다.
SLM, 아이디어 실험, 개발 구상 등에도 매우 유용
LLM을 축소한 SLM은 언어 모델이 어떻게 작동하는지에 관심이 있는 연구자들에게 최대의 이슈가 되고 있다. 특히 SLM은 각종 새로운 아이디어를 사전에 저렴한 비용과 간단한 방법으로 시뮬레이션하거나 시험할 수 있도록 해준다.
특히 “큰 모델보다 매개변수가 적기 때문에 추론이 더 투명할 수 있다”는 주장도 나오고 있다. MIT-IBM 왓슨 AI 랩의 연구 과학자인 레솀 초센은 최근 연구소 전용 블로그를 통해 “새로운 모델을 만들려면 여러 가지를 시도해 봐야 한다”면서 “그러나 SLM은 연구자들이 큰 위험 부담없이 새로운 실험을 할 수 있도록 해준다”고 장점을 강조했다.
물론 SLM은 LLM과 달리 범용 도구로 사용되진 않는다. 그 보단 대화 요약, 헬스케어 챗봇으로 환자 질문에 답변하기, 스마트 기기에서 데이터 수집 등 구체적이면서도 한층 특화된 용도에서 탁월한 성과를 낼 수 있다.
카네기 멜론 대학교의 컴퓨터 과학자 지코 콜터 역시 일찍이 “많은 작업에서 80억 개의 매개변수를 가진 모델은 그 성능이 만족스럽다”고 했다. 그 역시 “이는 거대한 데이터 센터 대신 노트북이나 휴대폰에서도 실행할 수 있다”면서 “여기서 ‘소규모’의 정확한 정의에 대한 합의는 없지만, 새로운 모델은 모두 최대 약 100억 개의 매개변수를 가진다”고 밝혔다.
계속해서 증가하는 매개변수를 가진 크고 값비싼 LLM 모델은 일반화된 챗봇, 이미지 생성기, 신약 개발과 같은 응용 분야에 여전히 유용하다. 그러나 ‘가지치기’나 ‘증류’ 방식으로 이를 축소한 SLM은 사용자들이 훈련하고 구축하기가 더 쉬우면서도, LLM 못지않게 원활하게 작동한다는 평가다. 그래서 “LLM을 효율적으로 축소한 SLM이야말로 비용, 시간, 그리고 컴퓨팅을 절약할 수 있다”는 주장이다.