파운데이션 모델 등을 작고 저렴한 모델로 ‘증류’
앙상블 모델 활용, ‘학생’ 모델이 ‘선생’ 모델 이미지 식별 학습
크고 복잡한 모델의 정확도 유지하며, 간결한 모델로 축소

 각종 AI모델 이미지. 이를 소형화하는 '증류'기술이 부각되고 있다. (출처=AFP, 게티이미지)
 각종 AI모델 이미지. 이를 소형화하는 '증류'기술이 부각되고 있다. (출처=AFP, 게티이미지)

[애플경제 전윤미 기자] 태어날 때부터 ‘진리’를 안다는 ‘생이지지(生而知之)’가 가능할까. 적어도 중국의 ‘딥시크(DeepSeek)를 둔 평가도 마찬가지다. 이미 구글 등 실리콘밸리에서 활용되고 있던 ‘증류’(distillation) 기술이 그런 파격적인 성과의 바탕이 되었다. 이는 마치 ‘술을 증류하듯’, 말 그대로 기존의 방대한 지식의 핵심을 ‘요약’해서 추출하는 방식이다. 딥시크 역시 ‘생이지지’가 아닌, 기존의 ‘증류’ 기술을 활용, 그런 파격적인 싼값의 고성능 AI모델을 개발한 것이다.

딥시크 이전 구글 BERT 등이 시초

AI모델의 상용화가 가속화될수록 LLM의 ‘증류’(distillation) 기술은 더욱 부각될 전망이다. 딥시크는 ‘증류’를 통해 파격적인 저비용으로 오픈AI 등 실리콘밸리의 AI모델과 대등한 성능을 개발, 충격을 준 바 있다. 그러나 이는 이미 구글 ‘BERT’ 등을 비롯, 진작부터 개발업계에서 낯설지 않은 기법이다. 다만 이를 모델 개발 전 과정에서 구사, 고성능 LLM을 개발한 점이 다를 뿐이다.

이는 한 마디로 ‘선생’에 비유할 수 있는 대형 모델(파운데이션 모델)을 사용, 더 적은 비용으로 ‘학생’ 모델을 학습시키는 것이다. 다시 말해 대형 모델을 더 작고 저렴한 소형 모델(sLM)을 만드는 것이다. 이는 AI모델이 일상 생활에서 보편화됨에 따라 sLM을 위한 필수적 기술이 되고 있다.

증류는 오늘날 기업들이 모델의 효율성을 높이기 위해 사용하는 가장 중요한 도구 중 하나다. 애초 이는 머신러닝(ML) 알고리즘의 눈에 띄는 약점을 해결하기 위해 고안한데서 비롯된다.

흔히 오답들 가운데서도 틀린 정도는 각기 다르다. 예를 들어 이미지 분류를 위한 모델에서 ‘개를 여우와 혼동하는 것’은 ‘개를 피자와 혼동하는 것’보단 같은 오답이라도 틀린 정도가 한결 낫다. 기존 ML은 그러나 틀린 정도가 각기 다르더라도, 모든 오답을 똑같이 나쁜 것으로 간주하는 경향이 있다.

앙상블 모델 기반, 정확한 식별 능력 ‘증류’

이에 동원된 것이 ‘앙상블 모델’이다. 이는 여러 개의 모델을 조합, 하나의 최종 결과를 도출하는 방식이다. 각각의 모델이 갖는 특성과 성능을 최대한 활용, 전체 성능의 향상을 추구하는 것이다. 이를 통해 단일 모델의 한계를 넘어서는 높은 성능을 달성할 수 있다. 특히 다양한 데이터셋과 조건에서도 일관되게 성능을 향상시킬 수 있다.

이는 여러 모델을 결합함으로써, 특정 데이터 포인트에 지나치게 최적화되는 ‘과적합’을 효과적으로 방지할 수 있다. 모델의 다양성이 증가함에 따라 예측의 안정성이 높아진다. 특히 노이즈가 많은 데이터에서 성능이 향상될 수 있다.

이런 앙상블 모델이라면 같은 오답 중에서도 어떤 오답이 다른 오답보다 덜 틀렸거나, 더 많이 틀렸는지를 나타내고 있을 것으로 추측할 수 있다. 비유를 하자면, 큰 ‘선생’ 모델보다 작은 ‘학생’ 모델에서이미지 범주에 대한 더 많은 정보를 전달할 수 있도록 하는 방법이다.

이를 통해 각각의 가능성에 ‘확고한 답’이 아닌, ‘확률’을 부여하는 것이다. 예를 들어, 특정 ‘이미지’를 두고 ‘개를 나타낼 확률’이 30%, ‘고양이를 나타낼 확률’이 20%, ‘소를 나타낼 확률’이 5%, ‘자동차를 나타낼 확률’이 0.5%라고 계산하는 식이다. ‘확고산 답’이 아닌, ‘확률’이다.

이런 ‘확률’을 사용해 ‘선생’ 모델은 ‘학생’에게 ‘개’가 ‘고양이’와 매우 ‘유사’하고, ‘소’와도 크게 다르지 않지만, ‘자동차’와는 매우 다르다는 것을 효과적으로 보여주는 식이다. 결국 이런 정보 전달을 통해 ‘학생’ 모델이 개, 고양이, 소, 자동차 이미지를 더 효율적으로 식별하는 방법을 배우는 데 도움이 되는 것이다. 즉 “크고 복잡한 모델도 정확도를 거의 잃지 않고 더 간결한 모델로 축소할 수 있다”는 원리다.

'증류' 기술을 바탕으로 한 중국 딥시크의 'R1'모델. (출처=아이스톡)
'증류' 기술을 바탕으로 한 중국 딥시크의 'R1'모델. (출처=아이스톡)

모델 효율성 높이기 위한 중요한 도구로 확산

앞서 중국 AI 기업 딥시크는 이런 ‘증류’ 방식을 통해 올해 초 ‘R1’이라는 챗봇을 출시, 큰 관심을 모았다. 대부분의 국내외 언론은 물론 일부 전문가들조차 그저 “상대적으로 작고 잘 알려지지 않은 한 회사가 세계에서 가장 유명한 AI 기업들의 챗봇 성능에 필적하는 성능을 발휘하면서도 컴퓨터 성능과 비용은 훨씬 적게 사용했다”고 주장하는데 초점을 맞췄다.

그 결과, 여러 글로벌 AI 관련 빅테크들과 기업들의 주가가 폭락했다. 특히 늘 선도적인 AI 모델을 구동하는 칩으로 시장을 장악해온 엔비디아가 가장 큰 타격을 입었다. 이 회사는 단 하루만에 뉴욕증시 사상 유례없는 회사보다도 대폭락을 기록했다.

그러나 시간이 흐르면서 점차 글로벌 AI업계는 물론, 주요 언론들도 ‘정신’을 차리기 시작했다. 딥시크가 다름 아닌 ‘증류’기법을 사용, 오픈AI의 독점 ‘o1’ 모델에서 허가 없이 정보를 획득했다는 주장도 나왔다. 이번엔 다수 언론들이 ‘증류’ 기술을 AI 업계에 대한 충격으로 새삼 포장하기도 했다. 그러면서 “딥시크가 AI를 구축하는 새롭고 효율적인 방법을 발견했다”고 호들갑을 떨었다.

하지만 ‘증류’ 또는 ‘지식 증류’라고도 불리는 증류는 이미 AI기술 분야에서 널리 사용되어어왔던 도구다. 이미 10여 년 전부터 컴퓨터 과학 연구 주제였으며, 빅테크들도 자체 모델에 사용하고 있다. 미 펜실베이니아 대학교 와튼 스쿨의 연구원 엔릭 보이스-애드세라는 ‘퀄타매거진’에 “증류는 오늘날 기업들이 모델의 효율성을 높이기 위해 사용하는 가장 중요한 도구 중 하나”라고 이미 보편화된 기술임을 강조했다.

‘여러 모델을 단일 모델로 정제’ 아이디어가 시초

그에 따르면 ‘증류’라는 아이디어는 AI의 대부로 불리는 2024년 노벨상 수상자 제프리 힌튼에서 비롯된다. 당시 AI연구원들은 흔히 모델 앙상블 기법을 실행했다. 즉, “여러 모델을 붙여서” 성능을 개선했다. 그러나 모든 모델을 ‘병렬’로 실행하는 것은 엄청나게 번거롭고 비용이 많이 들었다. 이에 ‘여러 모델’(의 정보)을 ‘단일 모델’로 정제하는 ‘증류’ 아이디어가 실용화되기 시작한 것이다.

처음엔 이처럼 ‘여러 모델’을 ‘단일 모델’로 정제하는 ‘증류’하는 방식이 외면당했다. 관련 논문은 학회에서 거부되기도 했다. 하지만 중요한 순간에 주목을 받기 시작했다. 이 무렵, 엔지니어들은 신경망에 더 많은 훈련 데이터를 투입할수록 신경망의 효율성이 높아진다는 사실을 깨닫고 있었던게 계기가 되었다.

모델의 크기와 기능은 곧 폭발적으로 증가했지만, 운영 비용 또한 모델 크기에 비례해서 증가했다. 이에 많은 연구자들이 더 작은 모델을 만드는 방법으로 ‘증류 기법을 활용했다.

대표적으로 2018년 구글 연구원들이 공개한 강력한 언어모델 ‘BERT’이 계기가 되었다. 구글은 수십억 건의 웹 검색 구문 분석에 이 모델을 사용하기 시작했다. 하지만 ‘BERT’는 규모가 크고 운영 비용이 많이 들었기 때문에, 다음 해 다른 개발자들이 이를 ‘증류’한 ‘DistilBERT’라는 이름의 소규모 버전을 개발한 것이다.

그 후 ‘증류’는 점차 보편화되었다. 현재는 구글, 오픈AI, 아마존과 같은 기업들이 ‘증류’ 기술을 증류하고 있다. 현재 권위있는 논문 아카이브 ‘arxiv.org’ 사전 인쇄 서버에 게시된 것만 해도 최초의 증류 논문은 현재 25,000회 이상 인용되었다.

지식 증류를 시사하는 이미지. (출처=퀀타매거진)
지식 증류를 시사하는 이미지. (출처=퀀타매거진)

딥시크 ‘R1’에 대한 오해도 해명?

앞서 ‘딥시크’의 ‘증류’를 두고 “오픈AI의 ‘o1’에서 데이터를 몰래 증류한게 아니냐”는 비판섞인 의혹이 제기되었다. 그러나 조금만 그 원리를 생각하면 이는 사실과 다르다. 증류를 위해선 앞서 표현한 ‘선생’ 모델의 내부에 ‘학생’ 모델이 접근해야 한다. 그러나 오픈AI ‘o1’과 같은 폐쇄형 소스 모델에서 제3자가 ‘증류’를 시도하는 것은 불가능하다.

하지만 그런 ‘침투’와 모방 아니라도 가능하다. 즉, ‘학생’ 모델이 ‘선생’ 모델에게 특정 질문을 던지고, 그 답변을 바탕으로 자체 모델을 학습시키는 방법이다. 그것만으로도 ‘선생’ 모델로부터 상당한 학습을 할 수 있다. 이를 두고 AI업계 전문가 일각에선 “흡사 (질문을 통해 답을 구해가는) ‘소크라테스’식 접근 방식과 같다”고도 한다.

이런 ‘증류’ 기술도 날로 진화하고 있다. 최근 미 캘리포니아 대학교 버클리 캠퍼스 ‘노바스키’ 연구실은 ‘증류’ 과정에서 복잡한 질문에 더 잘 답하기 위해 ‘다단계 사고’를 사용하기도 한다. 이는 이른바 ‘사고 연쇄 추론 모델’을 훈련하는 데 효과적임을 보여주고 있다.

연구실측은 AI 벤치마크인 ‘맥시멈 트루스’를 통해 “(다단계 사고를 활용한) 완전한 오픈소스 ‘Sky-T1’ 모델의 훈련 비용이 450달러 미만이며, 훨씬 더 큰 오픈소스 모델과 성능이 비슷한 결과를 얻었다”고 밝혔다. 그러면서 “이제 ‘증류’는 AI시대의 기본 기술”이라고 단언했다.

저작권자 © 애플경제 무단전재 및 재배포 금지