고품질 데이터, 생성AI 프롬프트 스스로 만든다
양질의 데이터가 AI시대의 ‘승부수’, 현실적으로 수집․획득 한계 생성AI 자체적으로 텍스트․비디오․오디오 등 다양한 모달 생성, 공급 빅테크들, 허깅페이스, 네이버 클로바 등 프롬프트로 데이터 생성
[애플경제 전윤미 기자] 데이터 품질이야말로 AI시대의 승부수라고 해도 과언이 아니다. 양질의 데이터를 확보하는 것은 곧 국제사회에서 AI의 주도권을 쥐는 것이나 다름없다. 그렇다보니 품질좋은 데이터를 확보하기 위해 글로벌 빅테크는 물론, 크고 작은 AI솔루션 현장에서도 이를 위해 사력을 다하고 있는 실정이다.
그러나 따끈따끈한 고품질 데이터를 대량으로 수집하는 것은 결코 쉽지 않다. 엄청난 비용이 들기도 하고, 아예 데이터 경험치가 그에 못미치는 경우가 대부분이다. 이에 최근엔 아예 생성AI의 ‘생성 능력’, 즉 프롬프트를 십분 활용해 대량의 고품질 데이터를 AI 스스로 자가생성하거나 학습, 진화하는 기술이 빠르게 발전하고 있다.
인공지능 스스로 판단, 데이터 생성․학습
김혜진 한국전자통신연구원 책임연구원은 “이에 시뮬레이터에서 데이터를 수집하는 것이 아니라 생성형 AI가 필요한 데이터를 직접 만들어 내고, 인공지능 스스로의 판단하에 필요한 데이터를 만들고 스스로 학습하도록 하고 있다.”고 밝혔다.
김 책임연구원은 정보통신기획평가원을 통해 공개한 연구보고서에서 특히 마이크로소프트의 사례를 통해 고품질 데이터의 중요성을 강조하기도 했다.
즉 “교과서로 학습한 모델이 더 많은 데이터를 사용한 거대한 모델의 성능을 뛰어 넘는다는 것을 보여 주었다”며 “13억 개의 모델 파라메터를 갖는 Vicuna 모델, 7억 개의 파라메터를 갖는 Llama2, MPT, Falcon보다 1.3억 개의 파라메터를 갖는 phi-1.5 계열의 모델에 성능이 유사하거나 더 우수함을 보여주었다”는 것이다.
그에 따르면 또 ‘순수 필터링된 웹 데이터’만을 사용한 모델보다 정제된 양질의 데이터인 텍스트북으로 학습한 결과가 더 높게 나타났다. 즉 학습 데이터 품질의 중요성을 일깨워준 것이다.
오픈AI ‘소라’처럼 고퀄리티 데이터 AI가 생성
그러나 고품질 데이터 획득이 쉽지 않은 만큼, 최근엔 프롬프트로부터 데이터를 만들 수 있는 생성 AI를 이용하려는 움직임이 활발하다. 실제로 생성AI 모델들은 다양한 모달을 앞다퉈어 개발하고 있다. 지난해 맥킨지 보고서에 따르면 MS나 오픈AI, 메타, 구글, 스태빌리티AI, 아마존, 애플, 엔비디아, 코히어, 앤트로픽, AI21 등 빅테크들은 모두 이런 방식을 동원하고 있다.
이들은 프롬프트를 통해 텍스트, 이미지, 오디오, 뮤직, 3D 비전, 비디오, 단백질 구조나 DNA 배열 등 다양한 모달을 생성하고 있다. 국내에서도 네이버가 자체 클로바(CLOVA)를 통해 한국에 특화된 정보를 제공하고 있다.
대표적으로 지난 2월 오픈AI가 발표한 텍스트-비디오 전환 모델인 ‘소라’(Sora)의 경우 텍스트만으로 매우 수준높은 비디오를 생성했다. 이는 최대 1분 길이의 동영상이나 다양한 객체, 지속성과 연속성을 갖는 동작, 정교한 배경 등을 생성할 수 있다.
생성AI는 또 텍스트를 이용한 콘텐츠 생성에도 활발하게 이용되고 있다. 예를 들어 맞춤형 이메일, 포스트 작성, 인터뷰 질문 구성, 챗봇을 통한 고객 서비스, 검색 개선, 기업 지식 관리 시스템 등 다양한 영역에서 응용되고 있다. 오디오 모달리티에서도 교육용 보이스 오버 생성, 사용자 정의 사운드 생성, 녹음이 필요없는 팟캐스트 편집 등이 가능하다.
또한 게임 개발, 인테리어 디자인 모의 작업, 디지털 표현 아트 등에서 3-D 비전 기술이 적용되기도 한다. 또한 생성AI는 파이썬, 파이토치, 텐서플로우 등과 같은 다양한 코드를 생성할 수 있고, 코드의 오류를 수정하거나 코드 최적화 작업 등도 수행할 수 있다.
마케팅과 판매를 위한 독특한 미디어 생성, 빠른 이미지 편집, 개인화된 콘텐츠 제작 등이 가능하다. 특히 AI 학습에 필요한 이미지 데이터 생성에도 활용되고 있다. 이 밖에도 짧은 구성의 비디오를 생성하거나 편집하기도 한다. 음성 번역이나 조정, 얼굴 교체와 조정 등도 가능하다.
로봇용 파운데이션 모델, 머신러인 프레임워크 등 생성
이처럼 다양한 모달들을 생성할 수 있게 된 생성AI 모델 기술이 날로 빠르게 발달하고 있다. 허깅 페이스(Hugging Face), ‘Open-X Embodiement’ 등도 그 대표적인 사례로 꼽을 만한 것들이다. 허깅 페이스는 미국의 인공지능 스타트업이다. AI 데이터셋, AI 모델 등 머신러닝 프레임워크를 제공하는 플랫폼으로 유명하다
이는 다양한 언어, 주제, 테스크를 포함한 수백 개의 데이터셋을 확보하며, 계속 그 질과 양을 확장하고 있다. 로봇 분야에서 특화된 ‘Open-X Embodiment’도 눈길을 끈다. 이는 로봇 데이터를 함께 모으기 위한 프로젝트다. 한국 KAIST와, 구글을 포함한 전 세계의 연구자들이 함께 로봇 데이터를 모아서 로봇을 위한 파운데이션 모델을 만들고 있다. 로봇의 형태, 로봇이 다루는 객체, 로봇이 수행하는 다양한 유형의 작업 등 다양한 환경을 망라한다. 이곳 데이터셋은 공개는 물론 누구나 이에 참여할 수 있도록 하고 있다.
지능정보사회진흥원, KAMP 등 데이터 생성 플랫폼도
국내에서도 이같은 데이터의 중요성을 깊이 인식하고 있다. 김 책임연구원은 “한국지능정보사회진흥원의 경우 별도로 마련된 ‘AI Hub’에 데이터를 모을 수 있도록 했다”고 소개했다. 그에 따르면 ‘AI 허브’는 2018년에 공식적으로 출범했다. 이는 각종 모달리티를 비롯해 센서에 대한 데이터 등을 포함하고 있다. 관련 분야도 한국어, 영상이미지, 헬스케어, 교통물류, 재난안전환경, 농축수산, 문화관광, 스포츠, 교육, 로보틱스, 제조, 지식재산, 법률, 금융 등으로 광범위하다.
인공지능 제조 플랫폼 ‘KAMP’도 유사한 사례다. 이는 2020년에 인공지능ㆍ데이터 기반의 스마트 제조를 위해 스마트 공장의 데이터를 마이데이터로 전환, 생산성을 높이면서 데이터가 수익을 창출하도록 하는 플랫폼을 구축했다. 이는 머신비전, 설비 이상 예측, 최적 공정제어, 설비 최적 조건 분석, 품질 예측, 공정 최적화, 고장 분석 및 진단, 예지보전, 생산량 예측, 사용량 예측을 위한 센싱, 이미지, 오디오 등의 다양한 제조 데이터가 포함되어 있다.