지구촌 ‘데이터 고갈’ 대비,“생성AI로 AI데이터 생산”
양질의 데이터 확보가 AI경쟁의 관건, 빅테크 등 사활 걸어 LLM 기반 파운데이션 모델로 재가공 텍스트, 학습에 재활용 이미지 생성AI, 오디오 생성AI, 동영상 생성AI로 재활용 데이터 생산
[애플경제 이윤순 기자] 전문가들 사이에선 “AI 데이터는 곧 ‘국부’(國富)”라는 표현도 등장한다. 그 만큼 양질의 데이터가 AI품질을 결정하고, 이는 곧 국가 경쟁력과도 연결되기 때문이다. 실제로 MS의 실험에 의하면 교과서를 기반으로 한 AI가, 그 보다 10배의 매개변수를 사용한 대형모델보다 오히려 성능이 우수하다는 사실이 밝혀졌다. 교과서라는 이상적인 데이터의 힘을 실감케하는 대목이다. 이에 최근엔 AI기술의 경쟁력을 좌우하는 양질의 데이터를 널리 확보하기 위한 경쟁이 갈수로 치열하다.
오픈AI 등 개발업체, 무단으로 데이터 활용하다 '곤욕'
그 때문에 생성AI 시대를 쏘아올린 오픈AI의 경우 무단으로 데이터를 사용하는 바람에 뉴욕타임스로부터 소송을 당하거나, 배우 요한슨 스칼렛의 음성을 무단으로 변조했다가 곤욕을 치르는 등 어려움을 겪고 있다. 이에 전문가들은 “고품질 텍스트 데이터는 2026년경, 이미지 데이터는 2030년대 후반이 되면 부족해질 것”으로 전망하기도 한다.
김혜진 한국전자통신연구원 책임연구원은 “양질의 데이터가 곧 국가경쟁력이 되는 시대”라며 한 분석기관의 추정을 인용해 이같이 밝혔다.
특히 김 책임연구원은 최근 TTA저널 브리프를 통해 “양질의 데이터를 생성할 수 있는 생성형 AI 모델 개발이 중요하다”고 강조, 눈길을 끌었다. 생성AI 모델, 즉 LLM에 의해 텍스트와 이미지, 오디오, 동영상에 이르기까지 다양한 데이터를 생성하는 것이다. AI에 의해 AI 데이터를 생산하는 셈이다. 이를 통해 양질의 데이터를 양산할 수 있는 파운데이션 모델을 구축하는 것이 데이터 시대의 해법으로 등장하고 있는 것이다.
현재 전 세계 데이터의 70%는 아마존과 마이크로소프트, 구글 등 ‘빅테크 3’의 플랫폼에 저장되어 있다. 이들의 공통점은 무궁무진한 검색엔진이나 소셜미디어, 광범위한 클라우드를 보유하고 있는 것이다. 또 유럽 역시 ‘가이아-X 프로젝트’를 통해 나름대로 고유 데이터를 생성하면서, 이른바 ‘데이터 주권’을 확보하고 있다.
빅테크 등 세계적인 데이터 쟁탈전 치열
생성AI 이후 AI모델과 매개변수에 의해 다양한 출력을 시도하는게 공식이 되고 있다. 그러나 트랜스포머(Transformer)에 의해 이젠 AI모델에 대한 의존도가 크게 줄어들었다. 그 대신에 트랜스포머 등의 다양한 변용을 통해 AI 품질을 높이기 위해선 역시 양질의 데이터가 중요해졌다.
즉, 수준높은 AI 성능은 데이터를 얼마나 많이, 또 양질의 데이터를 수집하는가에 달린 것이다. 그 때문에 앞서 오픈AI나 앤트로픽, 그리고 글로벌 빅테크 기업들은 양질의 학습 데이터 확보에 목을 매고 있다. 그래서 그 대안으로 등장한 것이 바로 생성AI로 AI학습 데이터를 생성, 확보하는 것이다.
여기서 김 책임연구원 등 전문가들은 이른바 ‘SOTA(State-of-the-Art)’로 알려진 생성 AI 모델의 학습 데이터 생성에 기대를 걸고 있다. 이는 텍스트는 물론, 이미지, 음성과 음악 등 사운드, 동영상 등 다양한 데이터를 생성할 수 있다. 이를 위해 생성AI 모델은 우선 대용량 데이터를 수집해 파운데이션 모델을 만든다. 이로부터 생성된 텍스트, 이미지, 사운드, 동영항 등 ‘모달’을 생성해 학습용 데이터로도 활용하는 것이다.
생성AI 모델, 다양한 모달 생성, 학습데이터로 재활용
우선 텍스트를 생성하는데엔 LLM이 요긴하게 쓰인다. LLM으로 생성된 양질의 텍스트는 다시 특정 학습에 활용될 수 있도록 미세조정된다. 이들은 심지어 ‘인간과 유사한 방식’으로 텍스트를 생성할 수 있다는 평가다. 오픈AI의 챗GPT, 구글의 제미니(Gemini), 메타의 라마(LLama), 엔트로픽(Anthropic)의 클로드(Claude), 네이버의 클로바X(CLOVA X) 등이 그 대표적이 사례다. 이들 모델에 의해 만들어진 텍스트는 다시 양질의 학습 데이터로 활용되는 것이다. AI모델이 AI학습 데이터를 만드는 시대라고 할 수 있다.
생성AI 기반의 이미지 생성AI도 학습 데이터를 생선할 수 있다. 이는 텍스트 정보나, 이미지 스케치, 영역 분할 정보와 같은 메타 정보를 바탕으로 이미지를 생성한다. 대표적으로 달리-3(DALL-E 3), 미드저니(Midjourney), 스테이블 디퓨전(Stable Diffusion), 어도비 파이어플라이(Adobe Firefly), 구글 이마젠(Google Imagen) 등이다.
이들 첨단 생성 모델들은 “실제 사진과 분간하기 힘들 정도의 이미지를 생성하며, 특정 인물이나, 스케치, 특정 자세 등 조건에 맞춰 생성할 수 있을만큼 높은 수준”이란 설명이다.
실제와 구분 힘든 이미지, 동영상도 생성
음악이나 음성 가공 등 ‘사운드’(Sound) 생성AI 기술도 발달하고 있다. 그 중 ‘음악 생성 AI’는 악보, 리듬, 멜로디 등 음악적 요소를 학습한 다음, 이를 바탕으로 다시 독창적인 새로운 음악을 작공할 수 있다. 이런 목적의 AI모델은 스태빌리티AI사의 스테이블 오디오(Stable Audio) Suno.ai사의 수노(Suno), 구글의 리리아(Lyria), 메타의 뮤직젠(MugicGen) 등이 있다.
또 ‘오디오 생성 AI’도 눈길을 끈다. 이는 음성인식이나 합성 등을 위해 주로 활용된다. 특히 요한슨 스칼렛의 음성을 가공한 오픈AI의 사례에서 보듯, 자연스러운 인간 목소리 데이터를 생성할 수 있다. 오픈AI의 다국어 목소리 생성 기술을 비롯, 메타의 오디오젠(AudioGen), 일레븐랩스(ElevenLabs), 타입캐스트(TypeCast) 등이 대표적인 모델이다.
동영상을 만드는 비디오 생성 AI기술도 날로 발달하고 있다. 특히 지난 4월 등장한 오픈AI의 ‘소라(Sora)’처럼 프롬프트에 텍스트만 입력하면, 이를 바탕으로 생생한 1분짜리 동영상을 만들어내기도 한다. “이미지 생성, 사운드 생성, 텍스트 생성 등 생성모델의 종합판”이라는 얘기다. 김 책임연구원은 “이미 비디오 생성 AI는 자율주행과 로봇 등을 위한 학습 동영상 생성에 활용되고 있다”고 그 유용성을 전망하고 있다.