‘텍스트-비디오 모델’ 경쟁, 눈에 띄는 3社
구글 ‘Veo 2’ 오픈AI ‘Sora’, 런웨이 ‘Gen-3 Alpha’ 등 최소한의 시간·비용 ‘고품질의 짧은 영상’, 대중적 호응 가장 높아
[애플경제 이윤순 기자] 오픈AI의 비디오 도구인 소라(Sora)가 널리 출시된 것을 계기로 빅테크들 간에 새상 텍스트 투 비디오 모델 경쟁이 치열해지고 있다. 빅테크들과 일부 스타트업은 텍스트 프롬프트에서 사실적이고 고품질의 비디오를 생성할 수 있는 모델을 만들기 위해 경쟁하고 있다.
그러나 AI 비디오를 생성하는 데는 텍스트를 생성하는 것보다 훨씬 더 많은 전력 등 에너지가 필요하다. 이런 제약을 극복하며 고품질 모델을 만드는게 경쟁의 관건이 되고 있다.
최근 이 분야에서 두각을 나타내고 있는 업체는 구글과 오픈AI, 그리고 AI 스타트업 런웨이(Runway)가 함께 경쟁을 벌이고 있어 특히 눈길을 끈다. 이들는 모두 최소한의 시간과 비용으로 고품질의 짧은 영상을 생성할 수 있는 제품을 개발하고 있다.
‘Veo 2’, 제한적 출시, ‘기술 가장 우수’ 평가도
그 중 구글은 오픈AI의 소라(Sora)가 출시된 지 일주일 만에 최신 버전의 생성AI 비디오 도구인 ‘Veo 2’를 발표했다. ‘Veo 2’는 현재 미국 내에서 18세 이상인 얼리 어댑터들에게만 제공되고 있다. 그러나 아직은 대중화되고 있지 않다보니, “아무도 실제로 시도하는 방법을 알 길 없고, 구글에서 10년 이상 일한 사람 중에도 어떻게 액세스하는지 설명할 수 없다”는 얘기가 나오고 있다. 당연히 세부적인 가격 등의 정보도 알려진 바 없다.
구글은 그러나 “Veo를 사용하면 최대 2분 길이의 영상을 만들 수 있으므로 매우 짧은 영화를 제작할 수 있다”고 소개한다. 그러나 아직은 Veo의 전체 섹션은 비디오 생성도구로서 한계가 있고, 일관성이 없으며 작동 역시 복잡하다는 지적이다.
다만 실제로 이에 관한 조기 액세스 권한을 얻은 구글의 한 사용자는 선글라스와 헤드폰을 착용하고 칵테일을 마시는 강아지의 영상을 제작, 게시하기도 했다. 또 다른 샷에서는 칵테일 잔에 있는 우산의 색상을 여러 가지로 바꾸기도 했다.
그는 또한 프롬프트를 사용해 사람의 기괴한 표정을 묘사한 Veo 2 비디오도 게시했다.
이같은 AI 비디오 생성기에 대한 합의된 벤치마킹 시스템은 아직 없다. 그러나 구글의 Veo 2는 현재로선 가장 발전된 기술로 평가받기도 한다. 구글의 생성AI 비디오 제작 관계자는 “다양한 도구를 활용해 나무 도마 위에서 완벽하게 조리된 스테이크를 능숙하게 자르는 두 손이나, 희미한 김이 올라옴”이라는 프롬프트를 제시, 해당 내용 그대로 재현한 영상을 공개하기도 했다. 그는 또 X에 “이는 AI 모델이 물리적 거리와 움직임, 스테이크가 완벽하게 조리되었을 때의 의미에 대한 해석, 손을 묘사하는 과제를 수행한 결과”라고 밝혔다. 이는 사실 전문가들이 AI 비디오 생성 기술 가운데 가장 난이도가 높은 것으로 꼽는 요소다.
챗GPT Plus 및 Pro에 ‘소라’ 탑재
오픈AI는 지난 2024년 2월에 일부 테스터에게 ‘소라’ 베타 버전을 출시한 다음, 12월에 모든 챗GPT Plus 및 Pro 구독자에게 이를 출시했다. 구독자들에게 480p 해상도의 비디오 50개 또는 720p의 비디오를 제공하고 있다. 물론 구독료 액스에 따라 10배 더 사용하거나, 더 선명한 해상도, 더 많은 시간 활용할 수 있다.
오픈AI의 CEO인 샘 앨트먼은 지난달 X에 모든 “챗GPT Plus 사용자가 휴일엔 ‘소라’에 무제한으로 액세스할 수 있다”고 안내했다. 챗GPT Plus 및 Pro와 함께 제공되는 ‘소라’는 챗GPT Plus 및 Pro의 모든 텍스트나, 코딩, 이미지 생성 기능이 포함된다. 특히 “20초 분량의 비디오를 만들고자 하는 사용자에겐 소셜 미디어나 마케팅에 가장 이상적인 도구”라는 설명이다.
실제로 소라는 프롬프트 난에 설명을 입력하고 생성될 때까지 기다리기만 하면 된다. 다만 동영상은 인상적이지만, 물리적 공간을 묘사하는 부분에서 많은 기술을 요하다보니, 약간 서투른 부분도 있다.
그런 가운데 ‘소라’를 사용한 한 유뷰버에 의해 새롭게 저작권 문제가 지적되기도 했다. 해당 유튜버가 소라를 통해 만든 ‘책상에 앉아 있는 기술 평론가’의 동영상에서 이같은 문제가 불거지기도 했다.
오스카 영화 제작에도 쓰인 런웨이 ‘Gen-3 Alpha’
이들 빅테크 뿐 아니라, AI 스타트업 런웨이(Runway)가 지난 9월 출시한 최신 모델 ‘Gen-3 알파’도 모든 유료 플랜에서 사용할 수 있어 관심을 끌고 있다. 런웨이의 모델은 특히 오스카 수상 영화 ‘Everything Everywhere All at Once’를 만드는 데 중요한 역할을 한 것으로 보도되기도 했다.
런웨이는 지난 2023년에 이를 처음 대중에 공개하면서 사실상 최초의 텍스트-비디오 모델을 개발, 출시한 셈이다. 그러나 출시 초기엔 기술과 편의성 등에서 대중의 관심을 그다지 끌지 못하고, 시장의 반응도 미지근했다. 그 후 회사측은 특히 저작권 침해 소지를 방지하는 장치와 함께 기술을 업그레이드, 최근 다시 출시하게 된 것이다.
이를 위해 이 회사는 2023년 12월에 ‘게티 이미지’와 계약을 맺어 ‘상업적으로 안전하고 완성된’ 버전을 제공했다. 지난 9월에는 다시 ‘라이온스게이트 스튜디오’와 협력, AI 모델을 한층 훈련시켰다. 또한 지난 12월, 런웨이는 독립 AI 크리에이터가 스튜디오와 제작사에 자신의 작품을 선보일 수 있는 네트워크를 시작했다.