LLM 출현 후 특정 용도 벗어나 다양한 범용 모델로 전환 추세
용도 맞는 미세조정 후, 소수의 예제로 추가 학습없이 작동
스탠포드대, “범용의 AGI 기반이 파운데이션 모델” 개발
[애플경제 전윤미 기자] 챗GPT 등 생성AI의 기반이 되는 초대형 언어모델(LLM)은 특정 용도에만 국한되지 않는, 범용의 인공지능(AGI)이 보편화되는 계기를 마련한 셈이다.
오픈AI가 GPT‐3를 개발하기 이전까지는 정해진 용도에 맞는 모델을 개발해왔다, 그러나 최근엔 점차 AGI로 추세가 바뀌는 분위기 속에서 특히 이를 위한 파인튜닝(미세조정)과 퓨샷러닝, 파운데이션 모델의 중요성이 강조되고 있다.
특히 모델에 대한 미세조정 후 퓨샷러닝을 할 경우 하나의 모델만으로 다양한 용도에 AGI를 적용할 수 있게 된 것이다.
‘인공지능 개발자 모임’에 따르면 미세조정은 딥러닝 기술이 어느 정도 발달한 결과 나타난 전이학습의 일종이다. 이는 미리 대량의 데이터로 사전훈련을 하고, 이 모델을 새로운 데이터에 맞게 다시 학습하는 것이다. 그 결과 적은 데이터로 더 빠르고 정확하게 학습을 할 수 있도록 한다.
범용의 AGI를 위해선 미세조정만으론 한계가 있다. 이 역시 상당히 많은 데이터가 필요하고, 새로운 도메인에 적용하는 과정에서 라벨을 붙이는데 시간과 노력이 필요하다. 그래서 나온 것이 퓨샷러닝이다.
일반적으로 AI 개발과정의 분류 모델은 각 클래스마다 데이터와 라벨이 주어진다. 학습을 통해 새로운 데이터가 어떤 클래스인지 맞출 수 있게 한다. 그러나 퓨샷러닝은 이런 기존 방식과는 다르다.
전문가들 “퓨샷러닝=N-way K-shot 분류”
‘인공지능 개발자 모임’은 이를 두고 “N-way K-shot 분류를 사용한다”고 명명했다. 즉 N은 클래스의 개수, K는 각 클래스 마다 주어지는 예제의 숫자다. 이는 즉 ‘메타러닝’ 기법이라고도 한다.
예를 들어, 고양이 사진 3개와 강아지 사진 3개를 미리 준비한다. 그런 다음 ‘query set’에는 다른 고양이, 강아지 사진을 넣는다. 그런 다음 각 ‘query set’이 어떤 앞서 3개씩 제시된 고양이와 강아지 사진 중 어느 것에 속한 것인지를 학습하게 한다.
그 결과 웬만한 새로운 사진을 제시해도, 기존 사진들과 얼마나 유사한지를 알게된다. 즉 “학습이 끝나면 예제 사진 3개만으로도, 처음 보는 클래스의 사진들을 맞출 수 있다”는 것이다.
즉, “분류 모델은 데이터를 라벨에 따라 구분하는 것을 배우지만, 퓨샷러닝은 데이터를 구분하는 방법 자체를 학습한다는 차이가 있다”는 설명이다.
범용의 AGI를 위해선 다음 단계로 파운데이션 모델이 필수적이다. 이는 하나의 모델이 다양한 과업 해결 능력과 기능을 보유하고 있는 모델이다. 마치 완제품 직전의 중간재에 비유할 만하다.
이를 처음 개발한 스탠포드대 연구소는 ‘완성되지 않은채 배포되는 모델’로 규정한 바 있다. 즉, 방대한 양의 데이터를 자기 지도학습을 통해 학습한 모델로서, 수요자들은 이를 다시 자신의 작업에 맞게 미세조정, 사용할 수 있는 ‘범용’ 모델로 이해될 수 있다.
완성되지 않은채 배포, ‘파운데이션 모델’
깃허브, 엔비디아, 스탠포드 대학연구소, 커먼크롤 등 다양한 국내외 연구기관들도 이에 대한 진화된 연구를 수행하고 있다. 이들 기술문헌들을 종합하여 이에 대한 체계적 설명을 가하고 있는 한국지능정보사회진흥원은 “파운데이션 모델은 방대한 양의 폭넓은 데이터를 사용하여 자기 지도학습을 통해 방대한 내부 파라미터를 지닌 모델을 학습시킨 후, 아직 명확하게 수행해야 할 작업이 특정되지 않은 상태로 배포된 것”이라고 정의했다.
이에 따르면 그런 기초 모델로서 파운데이션 모델은 사용자가 원하는 용도나 목적에 맞게 비로소 미세 조정되거나, 문맥 내 학습 등과 같은 과정을 거치게 된다.
그같은 파운데이션 모델을 구축하기 위해선 자기지도학습을 통해 축적된 지식을 다른 작업에 활용할 수 있는 응용력을 길러준다. 이는 곧 전이학습의 일종으로서, 데이터를 발췌, 수집하는 어노테이션 값을 기계 스스로 설정한다는 점이 특징이자, 기존의 대규모 이미지 분류 데이터셋(이미지넷 등)과의 차이다.
그래서 전문가들은 “하나의 모델이 하나의 과업을 수행하는 시기를 지나, 이젠 하나의 파운데이션 모델이 다양한 과업을 수행하는 범용 AGI시기가 도래할 것”으로 보고 있다. 즉, LLM은 개발 당시 원래 의도한 기능 외의 부가적인 기능을 창출하는 ‘창발(Emergence)’특징을 발휘한다는 해석이다.
