소라2 vs Veo3, ‘세기의 대결’ 승자는?
음성 기능 등 ‘소라’ 개선? “‘Veo3’에 뒤졌던 점 만회” 관심사 ‘Veo 3’, 음성과 주변 소음 등 오디오 동기화, ‘소라’ 제압 ‘소라2’ 성능 보완, ‘Veo3’에 도전, ‘텍스트-영상’ 기술 대결 예상
[애플경제 엄정원 기자] 오픈AI의 소라2(Sora 2)가 출시될 예정이다. 구글 Veo3와 ‘세기의 한판 승부’가 펼쳐질 것으로 보인다. 양자는 텍스트-비디오(Text to Video) 기술을 선점하기 위한 오픈AI와 구글의 치열한 경쟁의 상징이기도 하다. 이미 구글 검색의 아성에 도전하고 있는 오픈AI가 이길 것인지, 아니면 구글이 텍스트-비디오 기술에서도 앞서 나갈 것인지가 주목된다.
지금까지는 구글이 앞서가고 있다. 지난해 오픈AI는 ‘소라1’을 출시, 세인을 놀라게 했다. 그러나 곧 이어 등장한 구글의 ‘Veo’시리즈, 특히 Veo3 모델보다 크게 뒤처지는 것으로 판정이 났다. 그래서 ‘소라2’ 출시를 앞두고, 많은 전문가들은 “‘Veo 3’ 모델을 이기려면 시청자들을 매료시킬 만큼 획기적인 기능이 있어야 할 것”이라고 조심스런 태도다.
‘소라1’, 무성 영상으로 ‘Veo3’에 판정패
앞서 ‘Veo 3’는 처음 등장해 세상을 놀라게했던 ‘소라’를 능가했다. ‘소라’에 없는 기능을 대거 개발해 선보였다. ‘소라’도 고품질 영상으로 처음 출시되었을 때 많은 사람들에게 깊은 인상을 남겼다. 하지만 이는 무성 영상이었다.
이에 비해 올해 출시된 ‘Veo 3’는 음성은 물론, 주변의 갖가지 소음이나 소리가 들리도록 오디오가 내장되었다. 이에 동기화된 짧은 클립을 선보였다. 영상 속 남자가 커피를 슬로우 모션으로 따르는 모습을 볼 수 있었고, 물이나 액체가 부드럽게 튀어오르는 소리, 도자기가 부딪히는 소리, 심지어 디지털 캐릭터 주변의 식당 안에서 나는 각종 소음도 모두 들을 수 있었다. 그야말로 완벽하게 또 다른 ‘제2의 세상’을 연출해낸 것이다.
그래서 이번에 출시를 앞둔 오픈AI의 ‘소라2’에 대해선 “많은 고객들의 마음을 사기 위해선 (Veo3와 맞먹거나, 능가하는) 기능과 사용 편의성을 모두 갖춰야 할 것”이란 주문이 많다.
‘소라2’의 경우 오픈AI 서버에서 발견된 레퍼런스를 바탕으로 한 텍스트-비디오 변환 모델이다. 공식적으로 확인된 것은 없지만, 이는 분명 구글 ‘Veo 3’ AI 비디오 모델을 겨냥한 신제품임을 충분히 짐작케 한다. 이를 본 실리콘밸리의 기술비평가 에릭 슈바르츠는 “(양자 간의 경쟁은) 단순히 더 아름다운 픽셀을 생성하기 위한 것이 아니라, 소리(sound)와 함께 사용자가 프롬프트를 작성할 때 상상한 어떤 것도 재현할 수 있는가 하는 것”이라고 했다.
그는 ‘테크레이다’에 “‘소라2’가 ‘Veo 3’의 성능을 능가하려면, 고도로 실감나는 음성, 음향 효과, 주변 소음 등을 가장 세련된 비주얼에 어떻게 녹여낼지 고민해야 할 것”이라고 덧붙였다. ‘Veo 3’의 높은 벽을 뛰어넘는게 쉽지만은 않다는 것이다.
특히 ‘립싱크와 같은 오디오를 정확하게 구현하는 것은 매우 까다로운 기술이다. 대부분의 AI 비디오 모델은 단어를 말하는 얼굴 표정은 보여줄 수 있다. 그러나 중요한 것은 그 단어들이 실제로 그 얼굴(의 입)에서 나온 것처럼 보이도록 만드는 것이다.
“‘소라2’, 비상한 성능개선 있어야 Veo3 추격 가능”
‘Veo 3’의 경우 이를 가장 정확하게 구현하고 있다. 그렇다고 소리와 영상을 아주 완벽하게 일치시키진 않는다. 다만 지금까지 나온 기술 중에선 가장 세밀하게 오디오와 입의 조화를 이루게 한다. 분위기에 맞는 배경 음악을 곁들이며, 영상의 의도에 맞는 효과를 내고 있다.
물론 영상 한 컷당 최대 8초에 불과한 점은 한계다. 그러나 그런 시간 제한의 단점에 앞서 영상의 품질이 높이 평가되고 있다. 또한, ‘Veo 3’는 실제 고양이가 수영장에서 높이 뛰어내리는 듯한 영상과 소리를 만들어낼 수 있을 정도로 뛰어나다. 앞서 ‘소라’는 이 수준엔 크게 못미쳤다. 그럼에도 “만약 이번에 나올 ‘소라2’가 안정적인 화질과 음성을 갖춘 상태에서 길이를 30초 이상까지 확장할 수 있다면, ‘Veo3’와 승부를 겨뤄볼 만하다”는 전망이다.
가급적 길이가 긴 AI 영상 제작을 많은 사용자들이 원하고 있다. 그런 사용자들을 대거 끌어들일 수 있을 것이란 전망이다.
오픈AI는 최대 20초 이상의 고품질 영상 기능을 갖출 수 있을 것으로 보인다. 또한 챗GPT에 내장되어 있어 다양한 영상 제작 프로젝트로 활용할 수 있다는 것 또한 장점이다. 이같은 ‘유연성’은 ‘소라’를 돋보이게 했지만, 결정적으로 오디오 기능이 없다는 점에서 한계가 있었다.
그래서 “‘소라2’가 ‘Veo 3’와 직접 경쟁하려면 ‘자신만의 목소리’를 찾아야 할 것”이란 주문이 많다. 단순히 목소리를 찾는 데 그치지 않고, 제작한 영상에 자연스럽게 녹여낼 수 있어야 한다. 또 오디오가 훌륭할 순 있어도, 오디오와 영상이 매끄럽게 연결되는 ‘Veo 3’의 수준을 따라잡지 못한다면 역시 실패작이 될 가능성이 크다는 지적이다.
‘텍스트-비디오’ 기술 발전에 대한 ‘우려’도
이와는 별개로 전문가들 사이에선 ‘소라 2’(와 Veo3)를 너무 ‘훌륭하게’ 만들면 그 자체로 문제가 생길 수 있다는 우려가 나온다. 즉, 이런 속도라면, 새로운 세대의 AI 비디오 모델이 나올 때마다 삶의 현실과 경계가 모호해질 수도 있다는 얘기다. 이런 점을 우려해 기존 ‘소라’와 ‘Veo 3’ 모두 실제 사람이나, 폭력 또는 저작권이 있는 콘텐츠가 포함된 프롬프트를 허용하지 않고 있다. 그러나 오디오를 추가하고, 그 성능을 높일 경우엔 해당 음성의 출처나 사용 범위를 둘러싼 새로운 검증이나 다툼이 생길 수도 있다.
실수요자들로선 이들 제품의 가격도 중요하다. 구글은 애초 ‘제미니 어드밴스드’ 유료 구독 서비스 뒤에 ‘Veo 3’를 두고 있다. ‘Veo 3’를 항상 사용하려면 월 250달러의 AI 울트라 요금제를 구독해야 한다.
오픈AI도 비슷한 방식이다. 챗GPT 플러스나, 프로(Pro) 요금제에 ‘소라 2’ 이용권을 포함할 가능성이 크다. 그러나 요금이 쌀수록, 기능은 더 많을수록 사용자들을 빠르게 확장할 수 있다는 점에서 최종 승부를 지켜볼 일이다.