MoE 기법 딥시크 R1 이어, 320억개 파라미터 ‘알리바바 QwQ-32B’
스탠포드·워싱턴대 S1, 50달러어치 1천개 데이터 고성능 개발 성공
신경망 입력 샘플별 하위네트워크 활성화, ‘슈퍼 파인튜닝’ 적용 등
[애플경제 전윤미 기자] 천문학적 비용의 대규모 데이터셋을 기반으로 한 LLM과 달리 저비용 고성능 언어모델 기법이 날로 주목받고 있다. 특히 중국 딥시크의 R1 등의 출시로 한층 부각되었고, 이를 계기로 새삼 저비용 고성능 모델들이 잇따라 출시되고 있다. 최근엔 ‘경쟁’의 양상을 보이며, 새로운 AI 생태계를 구축하고 있다.
딥시크에 이어 알리바바의 QwQ-32B 역시 불과 320억개의 파마미터만으로 고성능 모델을 구축한 케이스다. 이는 딥시크 R1이 6710개 파라메터로서 실제 활성화된 파라미터가 370억개인데 비해 극히 작은 수치라고 할 수 있다.
심지어 미국 스탠포드대학과 워싱턴대학에서 개발한 S1 모델은 학습 비용이 50 달러에 불과할 정도여서 화제가 되고 있다.
저비용 고성능 모델 신화 일군 ‘MoE’ 기법
딥시크 R1을 비롯한 이들 저비용 고성능 모델들은 공간 생성 원리의 측면에선 ‘병렬적 생성’을 기반으로 한 ‘Autoregressive model(AM)’로 분류된다. 진작에 GPT 시리즈(GPT, GPT-2, GPT-3, GPT-4)나 LLaMA, PaLM 등도 AM의 대표적인 모델이다. 그러나 가장 AM의 효용이 부각된 것은 지난 1월 딥시크 R1을 비롯, 2월에 등장한 S1, 3월에 공개된 알리바바의 QwQ-32B 등의 경우다.
실제로 AM의 대표적 모델이라고 할 딥시크 R1은 또한 Mixture-of-Experts(MoE) 기법을 사용, 불과 560만 달러(추적)로 기존 오픈AI의 o1 모델 학습의 1/17의 비용으로 비슷한 성능을 구현해 충격을 준 바 있다. 이를 계기로 중국은 물론, 미국 등지에서도 유사한 모델들이 빠르게 등장하며, 오픈 소스로 공개되고 있다.
MoE는 신경망의 입력 샘플들 각각이 말 그대로 ‘전문가’에 비유될 법한, 하위 네트워크를활성화하는 방식이다. 모든 샘플에 동일한 모델 파라미터를 사용하는 전통적인 신경망과 달리 매우 효율적이다. 즉, 특정 입력에 대해 일부 전문가만 선택적으로 활성화되므로, 모델의 총 파라미터 수는 증가하지만 연산량은 상대적으로 일정하게 유지된다는게 장점이다.
이에 관한 연구논문을 공개한 김혜진 한국전자통신연구원 책임연구원은 “이같은 MoE는 전문가(Expert) 네트워크와 게이트(Gate) 네트워크가 핵심적인 구성 요소”라고 구분했다.
그에 따르면 그 중 ‘게이트 네트워크’는 입력 데이터를 기반으로 최적의 전문가(하위 네트워크)를 선택하는 역할을 한다. 보통 소트맥스(Softmax)를 사용, 각 전문가(하위 네트워크)에 대한 확률을 계산하며, 특정 개수의 전문가를 선택, 가중치를 고려해 모합한 수치를 산출한다.
예를 들어 이때 특정 개수가 1개인 경우, 입력 데이터는 하나의 전문가에만 전달되는 방식이다.
이에 비해 ‘전문가 네트워크(Expert Networks)’는 다층 퍼셉트론(MLP) 형태를 가지며, 입력을 받아 처리하는 하위 신경망이다. 각 전문가가 각기 다른 데이터 패턴을 학습하면서 서로 다른 역할을 한다. 이때 전문가 네트워크의 개수(E)는 모델 용량을 증가시키는 핵심 요소다. 만약 그 수가 너무 많아질 경우 불균형 문제가 발생할 수 있다.
김 책임연구원은 특히 “MoE는 또 ‘게이트 네트워크’ 선택 확률을 활용, 활성화된 전문가들의 출력을 가중합하여 최종 출력을 생성한다.”면서 “이런 구조를 통해 MoE는 특정 태스크에 맞는 전문가를 선택적으로 활성화하여 모델의 용량을 증가시키면서도 연산량을 제한할 수 있다.”고 설명했다.
QwQ-32B ‘RL스케일링’과 S1 모델
한편 알리바바의 QwQ-32B는 같은 AM모델이지만, 딥시크 R1과 동등한 성능을, 더 적은 컴퓨팅 자원으로 구축한 케이스다. 딥시크 R1은 6710억개 파라메터를 투입, 실제론 370억개의 활성화된 파라미터로 구현되었다. 이에 비해 QwQ-32B는 32B개의 파라메터만으로도 우수한 성능을 보였다.
이는 AM모델로서, 사전 학습 모델(Qwen2.5-32B)을 기반으로 한 멀티 스테이지 RL 스케일링의 ‘에이전틱 추론’ 기능을 가족 있다. 이를 통해 딥시크 R1과 동등한 성능을 더 적은 컴퓨팅 자원으로 구축한 것이다.
S1 모델 역시 미국 스탠포드대학과 워싱턴대학에서 역시 저비용으로 개발한 모델이다. 이는 학습 비용이 불고 50달러인 것으로 알려져있다. 역시 AM모델로서 사전 학습모델(Qwen2.5-32B-instruct)을 기반으로 한 SFT(Supervised Fine-Tuning)의 테스트 타임 스케일링이다. 그러나 50달러 미만의 S1K(1,000개) 데이터로 학습한 점이 다르다.
대체로 GPT 계열의 모델들은 AM에 속하며, 시간에 따른 순차적 생성이 가능하다. 챗GPT의 경우 고비용이 드는 SFT의 RLHF(Reinforcement Learning from Human Feedback)를 적용했다.
그러나 S1모델은 1,000개 밖에 안되는 고품질 데이터로 SFT를 적용, 학습 비용을 절감할 수 있었다. “적은 데이터라도 고품질의 데이터라면 모델의 성능을 높여줄 수 있다는 점을 확인시켜 준 사례”란 설명이다.
