초거대AI 경쟁…‘초대형 데이터, 데이터셋, 성능평가’에서 판가름

GPT-3 계기 차세대 AI경쟁의 핵심으로 부각, 빅테크 선점 경쟁 치열
국내 대기업들도 적극 기술 개발 중, “인간과 흡사한 인종지능 시대 예고”
전문가들 “국제경쟁 이기려면 학계․기업만으론 역부족, 정책적 지원 절실”

[애플경제 전윤미 기자] 인간처럼 생각하고 판단하는 인공지능이 향후 AI경쟁력을 가름할 핵심 요소가 되고 있다. 이를 위한 초거대 AI기술은 최근 언어모델에서 시작해서 이미지·텍스트·영상까지 폭넓게 다루는 멀티모달(multi-modal) AI로 급속히 발전하고 있다. 특히 이에 걸맞은 초대형 컴퓨터 기술과 초대형 데이터, 그리고 비영어권으로서 우리 실정에 맞는 초거대 AI 성능을 평가할 수 있는 독자적인 데이터셋 구축이 국제 경쟁력을 좌우할 것으로 보인다.

초거대 AI는 모델의 크기가 크고 파라미터가 많은 인공지능 모델을 일컫는 것이다. 전문가들은 초거대 AI모델 경쟁력을 키우기 위해선 우선 슈퍼컴퓨터가 필요하다는 주문이다. 정보통신기획원은 “중장기적인 관점에서 초대규모 AI 모델 연구를 위한 민간 클라우드 활용 또는 정부 직접 구축 등 지원이 필요하다”면서 “현재도 정부에서 고성능 컴퓨팅 자원 지원 사업을 통해 AI 개발을 지원하고 있으나, 초대규모 모델을 연구하기 위해서는 부족한 실정”이라고 지적했다.

기존 언어모델보다 10배 규모 모델

현재 보통의 AI 모델에 대해선 정부가 20TFlops~40TFlops 규모의 컴퓨팅 자원을 지원하고 있다. 그러나 적어도 GPT-3 수준의 모델을 학습하기 위해서는 국가 차원의 초대규모 모델을 연구할 수 있는 인프라 지원이 필요하다는 주장이다.

그도 그럴 것이 GPT-3는 기존에 공개된 MS의 언어모델보다 10배 이상 큰 1,750억개의 매개변수를 가진 초대규모 모델이다. 인간 뉴런이 10조개~100조개인 점을 감안하면, 아직 격차가 크긴 하지만, 엄청난 발전이랄 수 있다.

초거대 AI기술 발전을 위해선 또 초대규모 모델에 적합한 분야를 선정하고, 모델 크기에 걸맞은 상징적인 초대규모 데이터를 구축하는 것도 급선무다. 모델은 본래 그 크기와 함께 기반이 되는 데이터의 규모가 동시에 커져야만 성능이 향상된다. 그러나 기업이나 학계로선 그런 초대규모 모델을 확보하는게 쉽지 않다. 이에 정부가 나서서 광범위한 데이터를 수집, 지원해야 한다는 목소리가 높다. 특히 “대규모 데이터셋의 수요가 가장 높은 분야를 선정하고 이를 정부가 직접 구축하거나, 글로벌 공개 데이터셋과 혼합하여 구축하는 것도 방법”이라는 주문이다.

초대형 AI에 걸맞은 성능 평가 체계도 중요하다. 즉, 한국지능정보사회진흥원은 “모델의 성능이 공통된 기준으로 평가될 수 있도록 국내 전용 평가체계와 리더보드를 구축할 필요가 있다”면서 “이미 비영어권 국가들은 모국어의 언어모델 성능을 평가하고 연구 역량 결집을 위해 각각 모국어 벤치마크 데이터셋을 적극 구축하고 있는 추세”라고 전했다. 이에 따르면 중국, 프랑스, 인도, 러시아, 인도네시아 등도 이같은 벤치마크를 구축한 바 있다.

“1회성 지원 아닌, 적극적인 정책 뒷받침 필요”

국내에서도 민간기업이나 연구원에서 자체적으로 데이터셋과 리더보드를 구축하기 위해 노력하고 있다. 현재 업스테이지AI나 네이버, 카카오, 뤼이드, 스카터랩, 뉴스페퍼민트 등 민간기업 외에 카이스트, 서울대, 연세대, 경희대 등 학계에서도 이를 위한 노력을 기울이고 있다. 이에 “이러한 민간 주도의 움직임이 1회성으로 끝나지 않도록 보조금 지원이나, 컴퓨팅 자원 지원 등 정부의 적극적인 뒷받침이 필요하다”는 주장이다.

본래 초대형 AI는 미국의 오픈AI가 GPT-3를 개발, 공개하면서 한층 가속도가 붙었다. 이 회사는 지난 2020년 GPT 시리즈의 세 번째 언어모델로 이를 공개, AI 연구의 새로운 전환점을 제시했다.

본래 사전 학습모델을 활용하여 새로운 과제를 수행할 경우 그에 해당하는 데이터셋이 다수 필요하다. 그러나 GPT-3는 단지 몇 개의소수 데이터로 과제를 해결하는 ‘퓨샷러닝’ 성능이 뛰어나다. 그야말로 ‘하나를 배우면 열을 아는’ 수준이다. 그래서 데이터가 조금만 늘어나도 엄청난 정보를 학습, 축적하는 것이다. 특히 이는 출시 직후 추론 서비스 API가 제공되면서, 자연어를 프로그래밍 언어로 변경하는 등 누구나 코딩을 쉽게 할 수 있게 하는 획기적 기술로 전세계적 주목을 받고 있다. 최근엔 GPT-3를 활용하여 영화 대본을 제작하고, 칼럼도 쓰는 등 창작의 영역에서도 괄목할 만한 성능을 내고 있다.

초거대 AI, 미래 경제‧사회의 새롭게 바꿔

앞으로 이같은 초거대 AI는 ▲의료 ▲금융 ▲가상인간 ▲생활 밀접형 어플리케이션 등 다양한 산업 및 일상 전반에 폭넓게 활용될 것으로 보인다. 초거대 AI는 또 많은 개발 비용과 시간이 드는 희귀 신약 개발 등 의료, 사회, 산업적 문제를 해결하는데 큰 도움이 될 것으로 기대되고 있다.

이에 글로벌 빅테크 기업을 중심으로 전개되는 초거대 AI 선점 경쟁도 이미 치열하게 벌어지고 있다. 정보통신기획평가원은 “초거대 AI는 대량의 데이터와 컴퓨팅 파워를 필요로 하는 만큼, 막대한 자본을 갖춘 빅테크 기업을 중심으로 개발이 추진되는 양상”이라며 “국내 에서도 네이버, 카카오, LG, SKT 등 대기업과 MS, 엔비디아, 메타, 딥마인드 등 글로벌 빅테크 간의 개발 경쟁이 가열되고 있다”며 국내 기업들의 분발을 촉구했다.

전윤미 기자 jym0538@naver.com

다른기사 보기

상단영역

본문영역