‘생성AI’ 기반, ‘Text to Image’ 기술 본격 대중화

“몇 단어와 몇 줄의 텍스트만으로 즉각 이미지나 동영상으로 전환” 스테이블AI의 ‘스테이블디퓨전’, 메타 ‘Make a Video’, 구글 ‘Imagen Video’ “스마트폰으로 고품질 비디오를 실시간 생성, 예술작품이나 3D객체도 창조”

2022-11-17     이보영 기자
구글의 ''이메진 비디오' 자료 화면.

구글의 ''이메진 비디오' 자료 화면.

 

[애플경제 이보영 기자]가트너를 비롯한 국내외 전문가들이 금년 이후 가장 유망한 기술 중 하나로 꼽은 것이 ‘생성AI(Generative AI)’이다. 실제로 가트너는 지난해 가을 2022년의 대표적인 전략 기술 12가지 중 하나로 이른바 ‘생성AI’를 꼽으면서 최첨단 AI 학습모델인 생성모델이 주목받고 있다. 최근엔 이를 활용한 ‘Text to Image’ AI기술이 개발, 확산되면서 장차 AI를 이용한 이미지와 동영상 제작이 대중화될 조짐을 보이고 있다.

특히 구글이나 메타 등이 지난 달 앞다퉈 이런 기술을 제품화, 공개하면서 더욱 대중화가 가속화되고 있다. 국내에서도 최근 정보통신기획평가원이나 전자통신연구원, KDB미래연구소 등에서 이를 새삼 조명하며 그 중요성을 강조하고 있다. 특히 이미지를 생성하는 ‘Text to Image’ AI기술이 주목을 받으면서 한층 기술 진화의 속도가 빨라지고 있으며, 여러 빅테크 기업들도 제각기 생성형 AI 프로그램이 잇달아 공개하고 있다. 그야말로 ‘생성AI 전성시대’가 열리고 있는 것이다.

‘생성AI’를 가능하게 하는 생성모델의 대표적인 것 중 하나가 GAN(적대적 생성 신경망, Generative Adversarial Networks)모델이다. 이는 학습 과정에서 주어진 데이터를 만들어 뒤섞고 감추는 기능과, 이에 맞서 데이터를 정확하게 식별하고 구분하는 기능이 상충되며 변증법적 융합을 이루는 방식과 유사하다.

좀더 쉽게 표현하면 GAN은 생성자와 판별자로 구성된다고 할 수 있다. 생성자는 ‘페이크’(속임수, Fake) 데이터를 판별자가 식별할 수 없도록 확률을 높이는 방향으로 학습하며, 이와 반대로 판별자는 생성자의 페이크 데이터를 진짜 데이터와 비교해 이를 식별해 내는 확률을 높이는 방향으로 학습한다. 다시 말해 생성자는 판별자를 속이기 위해 노력하며, 판별자는 생성자에게 속지 않기 위해 노력하는 셈이다.

기술적으로 표현하면 판별자의 판별 모델은 데이터 레이블 간의 차이를 적절하게 구분하는 ‘결정경계’(Decision Boundary)를 를 학습한다. 그래서 데이터가 어떤 레이블을 갖는지 결정하는 모델이다. 반면에 생성자는 데이터의 분포(Distribution)를 학습하여 주어진 데이터가 어떤 분포에 속할 확률이 높은지 결정하는 모델이다.

이를 활용하여 빅테크들이 개발, 공개한 생성형 AI 프로그램의 경우는 일반인도 쉽게 예술작품을 의 창작을 가능하게 하는 고도의 기술력을 지니고 있다. 그 중 스테이블디퓨전 등 AI 오픈소스가 특히 눈길을 끈다. 이는 스타트업인 스테빌리티AI가 만든 AI기반 이미지생성 기술로, 이미 오픈소스로 공개되어 여러 이미지 생성 AI 프로그램을 개발하는 원천이 되고 있다. KDB미래연구소는 “스테빌리티AI는 소스 오픈 이후 두 달만에 1억 100만달러 규모의 투자를 유치하여 유니콘 기업으로 진입하고 있다”면서 경제적 부가가치를 강조했다. 이는 최근 스마트폰앱으로도 출시되면서 본격적인 대중화의 조짐을 보이고 있다. 누구나 이젠 자신의 스마트폰에서 텍스트를 이미지로 변용한 ‘작품’을 만들 수 있게 되는 것이다.

이를 계기로 여러 빅테크 기업도 경쟁적으로 생성형 AI프로그램에 투자하면서, 프로그램 생성 이미지 기술은 더욱 발전하고, 정교화되면서 동영상도 가능해지는 수준에 이르렀다. 또 메타의 경우는 문장만 입력하면 비디오를 만들어 주는 ‘Make a Video’를 지난 9월 공개했다. 또 구글은 자사가 개발 중인 이미지 생성형 AI인 ‘Imagen AI’를 동영상으로 확장시킨 ‘Imagen Video’를 지난 10월 공개했다.

메타의 제품 소개에 따르면 ‘Make-A-Video’는 텍스트-비디오 생성을 가능하게 하기 위해 구축된 ‘Text to Image’ AI기술을 토대로 한 것이다. 메타는 “이는 세상이 어떻게 보이고 종종 어떻게 묘사되는지 파악하기 위해 설명이 있는 이미지를 사용한다.”며 “또한 세상이 어떻게 움직이는지 포착하기 위해서 레이블이 없는 비디오를 사용한다.”고 특징을 설명했다. 이런 데이터 마이닝 작업을 통해 ‘Make-A-Video’는 불과 몇 개의 단어나 몇 줄의 텍스트로 “기발하고 독특한 비디오”를 생성함으로써 상상력을 되살릴 수 있다는 얘기다.

구글도 지난 달 자사의 이미지 생성AI 기술인 ‘Imagen Video’를 공개하면서 “일련의 비디오 확산 모델을 기반으로 하는 텍스트 조건부 비디오 생성 시스템”이라고 정의했다. 이에 따르면 일단 ‘텍스트 프롬프트’가 주어지면 기본 비디오 생성 모델과 일련의 인터리브 공간, 그리고 ‘시간-비디오’ 초해상도 모델을 사용하여 고화질 비디오를 생성한다. 특정 해상도에서 완전한 ‘컨볼루션’(합성) 시간과 공간 초해상도 모델을 선택한 후 확산 모델의 매개 변수화 선택 등 설계 방식을 통해 고화질 텍스트-비디오 모델을 생성하는 것이다.

구글은 “이는 또한 확산 기반 이미지 생성에 대한 이전 기술을 토대로 비디오 생성을 설정하는 방식”이라며 “‘Imagen Video’는 이를 통해 고품질의 비디오를 빠르게 생성할 수 있을 뿐만 아니라 다양한 예술작품이나 3D 객체를 만들어낸다”고 했다. 또한 ‘다양한 비디오와 텍스트 애니메이션을 생성할 수 있는 능력을 포함, 높은 수준의 제어 가능성과 기능을 갖고 있다“는 설명이다.

이에 지난 8월에는 미 콜로라도주 주립박람회 미술대회에서 이미지 생성형 AI 프로그램인 ‘미드저니(Midjourney)’를 활용해 만든 그림인 ‘스페이스 오페라극장’이 디지털아트 부문 1등을 차지하는 등 ‘Text To Image’ 전성기를 열고 있다.