애플경제 발행인 김홍기
애플경제 발행인 김홍기

AI경쟁의 승자가 될 수 있는 관건은 양질의 데이터다. 재료가 좋아야 완제품도 좋듯이, 양질의 데이터가 AI품질을 결정한다. 그래서 빅테크와 각국의 AI개발업계는 정확하고 수준높은 데이터를 확보하기 위해 사활을 걸고 있다. AI시대가 본격화될수록 AI경쟁력이 한 나라의 경쟁력을 좌우하는 상황에서, 데이터는 국가 경쟁력이라 해도 틀린 말은 아니다.

실험에 의하면 교과서를 기반으로 한 AI가, 그 보다 10배의 매개변수를 사용한 대형모델보다 오히려 성능이 우수하다. 교과서라는 이상적이고 표준화된 지식 데이터의 힘을 실감할 수 있다. 이토록 데이터의 ‘위력’이 크다보니, AI개발 과정에서 무리수를 두기도 한다. 지식재산권에도 불구하고, 함부로 남의 데이터를 끌어다 쓰다가 곤욕을 치르곤 한다.

오픈AI만 해도 그런 일을 다반사로 벌이다가 혼이 났다. 무단으로 데이터를 사용하는 바람에 뉴욕타임스로부터 소송을 당했고, 배우 요한슨 스칼렛의 음성을 따와 제멋대로 변조했다가 경을 치기도 했다.
이 모든 것은 결국 수천억 내지 조 단위의 매개변수를 지닌 대형언어모델(LLM)을 잉태할 만한 데이터가 지구상에 부족하다는게 원인이다. 현재 예상하기론 쓸만한 텍스트로 된 데이터는 2026년이면 거의 구하기 어렵고, 이미지 데이터도 앞으로 대략 10여 년 후면 부족해질 것이라고 한다.

상황이 이렇다보니 최근엔 여러 가지 ‘꾀’를 내기도 한다. 가장 대표적인 방법이 AI 스스로 자신을 위한 데이터를 가공하는 것이다. 다시 말해 양질의 데이터를 생성할 수 있는 생성 AI 모델을 개발하는 방법이다. 생성AI 기반의 LLM이 텍스트와 이미지, 오디오, 동영상에 이르기까지 다양한 데이터를 생성하는 것이다.

그래서 양질의 데이터를 양산할 수 있는 ‘파운데이션 모델’을 구축하는 것이 데이터 시대의 해법으로 등장하고 있다. 여기서 ‘파운데이션 모델’은 단어 뜻처럼 모든 데이터를 생성, 가공할 수 있는 ‘기초’가 되는 모델이다. 범용의 데이터 제작도구라고 할 수 있다. 제조업으로 말하면, 일종의 ‘금형’에 해당된다고 할까.

이제 ‘4차산업혁명’이란 표현으론 부족하다. 그런 막연한 표현보다는 ‘AI혁명시대’라고 해야 더 정확하다. 앞으로 지구촌의 패권은 AI혁명의 승자에게 돌아갈 것이다. 그렇다면 그 핵심 재료가 되는 ‘데이터’야말로 AI혁명의 승패를 가르며, 지구촌 패권을 좌우할 요소다.

현재는 당연히 글로벌 빅테크가 데이터를 독점하고 있다. 필자가 알기론 전 세계 데이터의 70%는 아마존과 마이크로소프트, 구글 등 ‘빅테크 3’의 플랫폼에 저장되어 있다. 이들은 공통적으로 무궁무진한 검색엔진이나 소셜미디어, 광범위한 클라우드를 보유하고 있다. 그런 무기를 통해 지구촌 곳곳의 온갖 사소한 데이터를 싹쓸이하다시피 하고 있다. 유럽도 가만있지 않는다. 소위 ‘가이아-X 프로젝트’를 통해 나름대로 고유 데이터를 생성하면서, ‘데이터 주권’을 챙기고 있다.

다행히 국내에서도 생성AI로 학습 데이터를 만들어내려는 움직임이 포착되고 있다. 이른바 ‘SOTA(State-of-the-Art)’로 알려진 생성 AI 기반 데이터 제작 기술도 등장했다. 이는 텍스트, 이미지, 음성과 음악 등 사운드, 동영상 등 다양한 데이터를 생성할 수 있다. 이를 다시 변용해서 학습용 텍스트와 이미지, 사운드, 동영상과 같은 다양한 ‘모달’을 생성하는 것이다. 그런 점에서 최근의 네이버-야후재팬 사태는 매우 심각하게 봐야한다. 네이버가 공들여 만든 소셜미디어 ‘야후’의 천문학적 분량의 데이터를 수집하는 채널을 빼앗길 수 있기 때문이다.

지금은 잠시 소강상태에 들어갔으나, 일본은 결코 멈추지 않을 것이다. ‘데이터의 보고(寶庫)’를 차지하기 위해 다시 나설게 분명하다. 이는 ‘독도’ 못지않은 국가적 현안이라고 하겠다. 
수준높은 AI 성능이 한 나라의 ‘수준’이 될 날이 멀지 않았다. 데이터를 얼마나 많이, 또 양질의 데이터를 수집하는가에 따라 ‘수준’이 결정되는 것이다. 글로벌 빅테크와 주요국들이 양질의 학습 데이터 확보에 목을 매는 것도 그 때문이다. 그렇다면 데이터는 단순히 ‘AI’라는 기술적 아키텍처의 문제가 아니다. 한 나라의 발전과 운명이 달린 국가적 사안이다. 그래서 데이터는 곧 나라를 지킬 무기이자, ‘국부(國富)’다.

저작권자 © 애플경제 무단전재 및 재배포 금지