(2-②) AI 증류의 '지혜'-‘소형 AI의 필수기술’
‘학생’ 모델과 교사 모델 간의 질문·답변만으로도 충분한 학습 대형 모델과 별개 소규모 모델, ‘최저 비용으로 간편하게 제작’ 인간 ‘뇌’의 노화방지 원리 차용, 얀 르쿤 ‘가지치기’도 눈길
[애플경제 전윤미 기자] 처음 구글 연구원들이 ‘증류’ 개념을 제시했을 때만 해도 반응은 냉담했다. 해당 논문은 “이론적으로 근거가 박약하다”면서 학회에서 거부되었다. 이에 낙담한 비냘스 등 연구원들은 다른 주제로 눈을 돌렸다. 그러나 주제가 다른 부문에 대한 연구를 진행하던 과정에서 어느 순간에 좀더 분명한 사실을 발견했다. 이를 통해 엔지니어들은 신경망에 더 많은 학습 데이터를 입력할수록 네트워크의 효율성이 높아진다는 사실을 발견했다.
이 경우 모델의 크기와 성능은 곧 폭발적으로 증가했지만, 그 만큼 모델 비용은 크기에 비례해 증가할 수 밖에 없었다.
이에 많은 연구자들은 더 작은 모델을 만드는 방법으로 다시 ‘증류’(distillation)를 활용했다. 2018년 구글 연구원들은 일단 ‘BERT’라는 강력한 언어 모델을 공개했다. 구글은 곧 수십억 건의 웹 검색을 분석하는 데 이 모델을 사용하기 시작했다.
하지만 ‘BERT’는 규모가 크고 실행 비용이 많이 들었다. 그 때문에 이듬해 다른 개발자들이 ‘DistilBERT’라는 이름의 더 작은 버전을 증류했고, 이는 기업체나 연구소에서 널리 사용되었
그로부터 증류는 점차 보편화되기 시작했다. 현재는 구글, 오픈AI, 아마존과 같은 기업들이 ‘서비스’로 제공하고 있다. 최초의 증류 논문은 ‘arxiv.org’ 프리프린트 서버에만 게시된 바 있다. 그러나 그 후 이는 무려 25,000회 이상 인용되었다.
증류를 위해선 ‘선생님’ 모델 내부에 대한 접근이 필요하다. 그렇다면 중국의 딥시크처럼 제3자가 오픈AI의 ‘o1’과 같은 폐쇄형 소스 모델에서 데이터를 몰래 증류하는 것은 불가능하다. 그럼에도 불구하고, 딥시크는 ‘o1’을 증류한 것으로 전해져 그 사실 자체가 충격을 주고 있다.
다만 이 경우 ‘학생’ 모델은 ‘선생님’에게 특정 질문을 던지고 그 답변을 활용해, 자체 모델을 학습시키는 것만으로도 ‘선생님’ 모델로부터 상당한 학습을 할 수 있다. 이는 마치 (끊임없는 대화와 소통식의) 소크라테스식 증류법이라고 할 수도 있다. 딥시크는 아마도 그런 방식으로 ‘o1’을 증류한 것이 아닌가 짐작되고 있다.
한편, 다른 연구자들은 계속해서 새로운 응용 분야를 찾고 있다. 지난 1월, 미국 UC 버클리의 ‘노바스키’(NovaSky) 연구실은 증류법이 다단계 ‘사고’ 기법을 사용하고 있음을 보여주었다. 즉, 이를 통해 복잡한 질문에 더 능숙하게 대답하는 ‘사고 연쇄 추론 모델’을 학습하는 데 효과적임을 입증한 것이다.
해당 연구실은 “완전한 오픈 소스 ‘Sky-T1’ 모델의 학습 비용이 450달러 미만이었다”면서 “그럼에도 이보다 훨씬 더 큰 오픈 소스 모델과 별반 차이없는, 유사한 결과를 얻어낼 수 있었다”고 밝혔다. 이에 ‘NovaSky’ 팀의 공동 연구 책임자인 다청 리는 ‘윈도우센트럴’에 “이런 환경에서 증류법이 얼마나 잘 작동하는지 정말 놀랐다.”면서 “증류법은 앞으로 AI의 기본 기술이 될 것”이라고 주장했다.
특히 이젠 소규모 모델(sLM)의 학습 프로세스를 최적화하는데 이는 유용하다. 대규모 모델은 흔히 인터넷에서 원시 학습 데이터를 가져오는데, 이 데이터는 체계적이지 않고 복잡하며 처리하기 어렵다. 하지만 이러한 대규모 모델은 소규모 모델을 학습하는 데 사용할 수 있는 고품질 데이터 세트를 생성할 수 있다. 즉 ‘증류’를 통해 교사가 학생에게 수업을 하는 것처럼 대규모 모델이 효과적으로 학습을 전달할 수 있게 된다. “SLM이 소규모 모델과 적은 데이터에서 뛰어난 성과를 보이는 이유는 복잡한 데이터 대신 고품질 데이터를 사용하기 때문”이란 전문가들의 얘기다.
연구자들은 또한 대규모 모델에서 시작하여 축소하는 방식으로 소규모 모델을 만드는 방법을 연구해 왔다. 이는 증류의 일환인 ‘가지치기’(pruning)라고 알려져있다. 이 방법은 대규모 모델의 기반이 되는 연결된 데이터 포인트의 거대한 그물망인 신경망을 간소화하는 것이다. 즉, 불필요하거나 비효율적인 부분을 제거하는 기법이다.
가지치기는 실제 신경망인 인간의 뇌에서 영감을 받은 것이다. 즉 인간의 뇌는 나이가 들면서 시냅스 간의 연결을 잘라내어 효율성을 높이곤 한다. 오늘날의 가지치기 접근법은 이를 원용한 것으로 지난 1989년 논문에서 유래했다.
현재도 메타(Meta)에 근무하는 컴퓨터 과학자 얀 르쿤(Yann LeCun)이 그 장본인이다. 르쿤은 “훈련된 신경망에서 최대 90%의 매개변수를 효율성 저하 없이 제거할 수 있다”고 주장했다. 그는 이 방법을 “최적의 뇌 손상”이라고도 했다. ‘가지치기’는 이처럼 연구자들이 특정 작업이나 환경에 맞춰 작은 언어 모델을 미세 조정하는 데 도움이 될 수 있다.
앞으로도 ‘증류’가 AI, 특히 소규모 모델의 유용한 기법으로 활용될 것으로 전망되면서, 이같은 가지치기 기법 역시 더욱 활성화될 것으로 보인다.