세상의 물리적인 세계를 미리 체험, 과거 ‘월드 모델’과 유사
“텍스트 프레임을 ‘토큰’ 아닌, ‘패치’로 쪼개고 벡터 임베딩 변환”
[애플경제 전윤미 기자] 기사를 문장으로 쓴 다음에 이걸 ‘소라’를 이용해 생생한 가상의 동영상으로 만들면 어떨까?”-. 오픈AI의 텍스트-비디오 변환 AI모델 ‘소라’(Sora)가 잠정 출시되었다는 소식에 대한 언론계 일각의 반응이다. 물론 실제로 그런 행동을 할 경우 실사(실제) 영상도 아닌, 가상(혹은 가짜)의 영상을 만든 탓에 명예훼손의 소지가 크다. 그럼에도 이런 상상을 해볼 만큼 ‘소라’의 충격파는 큰 셈이다.
기존 텍스트-비디오 모델과 달리 1분간 긴 영상 생성
이미 오픈AI ‘달-리’는 텍스트-이미지 변환 기술의 선두에 서있고, 또 다른 런웨이 ‘Gen2’, 미드저니 등도 텍스트를 짤막한(5초 가량) 영상으로 만들 수 있다. 그러나 이번 ‘소라’는 무려 1분 길이의 ‘제대로 된’ 동영상을 만든다는 점에서 획기적이란 평가다.
특히 일부 AI전문가들은 ‘소라’에 대해 지난 2018년 등장했던 구글 브레인의 ‘월드 모델’(World Models)에 그 연원을 두기도 한다. ‘월드 모델’은 현실에 대한 가상의 시뮬레이션 기술이다.
다시 말해 아직 겪지 않은 다가올 순간이나 미래의 물리적인 세계를 시뮬레이션하는 것이다. 오픈AI가 블로그 포스트를 통해 “‘소라’는 단순한 영상 생성 모델이 아니다”라고 강조한 것도 그 때문이다.
기존 GPT는 ‘텍스트’를 통해 세상과 지금의 현실을 이해한다. 그러나 텍스트 혹은 문장을 통해선 한계가 있을 수 밖에 없다. 인공지능 개발자 사이트를 운영하는 네티즌 ‘깊은 바다’는 해당 사이트에서 “우리는 뭔가를 생각할 때 글자가 아니라 이미지나 영상을 머리속으로 떠올린다”며 “AI도 다음 단계로 나아갈려면 이런 방법이 반드시 필요하다”고 비유했다.
애초 이런 발상에서 태어난 것이 구글 브레인의 데이빗 하(David Ha)가 개발했던 ‘월드 모델’이었다. 이는 미처 다가오지 않은 세상의 작동을 미리 예측하고픈 욕망에서 개발된 모델이다.
예를 들어 아직 움직이지 않는 자동차가 도로를 따라 움직이게 하는 영상을 보여준다. 특히 이 대목에서 ‘깊은 바다’는 매우 정밀하게 텍스트-비디오 변환 모델의 원리를 설명하고 있다. 즉, 현재는 이미지가 모델에 입력되면 왼쪽이나 오른쪽으로 이동하는 액션을 출력하는 수준이다. 영상 변환 기술의 한계인 셈이다. 그러나 “‘월드 모델’은 여기서 중간 단계를 더 추가한다”고 했다.
즉, 그 사이에 중간단계를 삽입함으로써 현재 하나의 이미지가 주어지면 ‘다음 다음에’ 발생할 일을 단계적으로 예측, 새로운 이미지를 생성한다. 곧 동영상과 흡사한 묘사를 통해 미래를 상상하는 것이다.
‘사람의 뇌’처럼 예측과 추론 능력
일부 전문가들은 이를 두고 ‘사람의 뇌’에 견주기도 한다. 즉 사람의 뇌도 하나의 예측 기계란 점에서 그런 비교가 가능하다.
즉 사람은 의식적 혹은 무의식적으로 다음에 일어날 일을 예측한다. 만약 물이 든 컵을 들어올리려고 손을 뻗으면, 잠시 후 컵을 쥐었을 때의 감촉이나, 컵의 재질, 컵에 담긴 물이 작게 일렁이는 상황 등을 무의식적으로 예상하곤 한다. 즉, 짧은 순간의 미래를 미리 예측하는 것이다. 그런 ‘미리 예측한’ 짧은 순간의 미래를 시뮬레이션 한 것이 ‘월드 모델’이다.
‘소라’ 역시 그런 원리를 바탕으로 하고 있다는 분석이다. 즉 “AI 역시 사람처럼 이런 월드 모델을 가짐으로써 상식과 추론 능력을 갖추게 된다”는 것이다. 그래서 앞으로 등장할 GPT-5의 경우도 이번 ‘소라’와 같은 ‘영상 기반의 월드 모델’이 될 가능성이 크다는 예측도 있다.
특히 오픈AI ‘테크니컬 리포트’에 보면 ‘소라’ 모델의 작동 원리가 간결하게나마 소개되어 있다. 여기서 ‘소라’의 차별화 포인트는 ‘토큰’이 아닌, ‘패치’(Patch)다.
본래 기존 GPT는 작동의 기본 단위가 ‘토큰’이다. 프롬프트 입력 문장을 ‘토큰’으로 분리하고, 이를 벡터 임베딩으로 변환하는 것이다. 그 후 다음에 올 ‘토큰’의 벡터를 예측하고, 이를 다시 문자로 최종 표시하게 되는 것이다.
일단 ‘소라’도 이같은 LLM의 특징을 응용하고 있다. 다만 영상으로 변환하기 위해서 각 프레임 이미지를 ‘토큰’ 아닌, 작은 ‘패치’로 쪼개고 이를 벡터 임베딩으로 변환한다. 다시 그 다음에 올 프레임을 ‘패치’ 단위로 예측, 전체 영상을 생성하는 것이다. 이렇게 하면 긴 영상의 시간적, 공간적인 정보를 계속적으로 유지할 수 있다는 얘기다.
‘패치’를 기본 단위로 하는 트랜스포머 모델
그래서 ‘소라’는 일종의 ‘확산 트랜스포머’(Diffusion Transformer)라고 할 수 있다. 즉 “‘토큰’이 아닌, ‘패치’를 기본 단위로 하는 트랜스포머 모델이며, 각 패치는 ‘Diffusion’ 방식에 의해 고해상도 이미지로 생성된다”는 것이다. 다시 말해 처음에는 확산된 불완전한 이미지들로 시작한 영상이 점점 단계적으로 품질이 높아지는 이치다.
물론 ‘소라’ 역시 아직은 기존 텍스트-비디오 모델처럼 여전히 왼쪽에서 오른쪽으로 가면서 이미지를 구분할 수도 있다. 또 카메라의 특정한 움직임에 대해 시간이 지나면서 발생하는 이벤트에 대한 프롬프트의 복잡한 설명을 이해하는데 어려움을 겪을 수도 있다. 이처럼 기술적 문제도 아직은 남아있는 것으로 알려졌다.
예를 들어 “‘소라’로 제작된 영상에선 사람이 과자를 한 입 베어물었지만 베어 문 자국이 묘사되지 않는 것처럼 ‘원인과 결과의 오류’가 발생할 가능성도 높다”는게 오픈AI의 설명이다. 또 피사체의 팔다리나 캐릭터, 또는 숫자 등을 식별하는데 불확실하게 표현될 수도 있다.
또한 ‘소라’가 만든 영상이 실사 영상으로 오해될 소지도 있다. 이는 딥페이크처럼 명예훼손이나 잘못된 정보를 전달함으로써 사회적 문제를 야기할 수도 있다. 특히 오픈AI는 “‘DALL-E 3’에 적용한 것과 동일한 콘텐츠 필터를 소라에도 적용했다”면서 “이에 극단적인 폭력이나, 성적인 콘텐츠, 혐오스러운 이미지, 유명인 초상 도용 또는 타인의 IP 도용을 방지할 계획”이라고 했다. 공식 출시가 아닌, 시험 기간을 가진 것도 그런 기술적, 윤리적 문제에 대한 대책을 마련하기 위한 것으로 알려졌다.
