‘소라’ 만든 오픈AI “우리도 앞날이 무섭다”

텍스트-동영상 전환 ‘소라’에 “모델 규모 키웠을 뿐, 우리도 놀라” 몇 달 후 출시 예정 GPT-5, “사실상 AGI 버금가는 수준” ‘존재하지 않는 세상’ AI스스로 ‘창조’, 中 ‘사진1장으로 동영상’기술도

2024-02-28     전윤미 기자
소라로 제작된 동영상 이미지. (출처=오픈AI)

[애플경제 전윤미 기자] 인공지능 기술은 심지어 개발자들 스스로도 앞일을 예측하기 어려울 정도로 발전 속도가 빠르다. 최근 텍스트-영상 전환 생성 AI봇 ‘소라’(SORA)가 모습을 드러내면서 그런 분위기가 한층 확산되고 있다. 이를 개발한 오픈AI 자신도 최근 “우리도 앞으로 어떻게 될지 몰라 무섭다”고 할 정도다.

오픈AI는 앞으로 몇 달 후쯤엔 이번 ‘소라’ 기술을 포함한 GPT-5를 출시할 예정이다. 이는 장차 인간 수준의 범용 인공지능인 AGI를 목표로 하고 있다. 이미 GPT-5가 AGI 수준에 도달할 수도 있다는 예상도 나오고 있다. 이는 ‘소라’가 구현하고 있는 기술 수준에 비춰 충분히 예상할 만한 얘기다.

서사적 연속성 지닌 영상을 스스로 ‘창조’

최근 ‘인간과 AI’에 대한 기획보도를 이어가고 있는 ‘뉴욕타임스’는 “‘소라’에 대해 오픈AI 스스로도 놀랄 정도다. 회사측은 ‘그저 모델 규모를 몇 배 키웠을 뿐인데 이런 결과가 나왔다’고 자신들도 의외라며 경악해하고 있는 분위기”라고 전했다.

기존의 런웨이 ‘Ge n2’나, 미드저니 등은 텍스트를 짤막한(5초 가량) 영상으로 만들 수 있다. 이에 비해 ‘소라’는 무려 1분 길이의 서사적 연속성을 지닌 ‘제대로 된’ 동영상을 만든다는 점에서 획기적이란 평가다. 멀티모달의 모드를 여러 가지로 확장하고, 그 숫자를 늘렸을 뿐인데 그렇다는 얘기다.

실제로 ‘소라’는 사용자가 그저 개괄적인 문장으로 묘사만 해주면, 이를 매우 정밀하고 현실과 다름없는 수준의 영상을 알아서 만들어낸다.

예를 들어 “도쿄 거리에 자신만의 스타일의 검은색 옷을 입은 여성이 자신감있게 걸어간다. 립스틱을 바르고 짙은 선글라스를 꼈으며, 도쿄 거리는 비가 그친 후 축축하다” 정도의 문장으로 된 프롬프팅을 한다. 그러면 ‘소라’는 즉시 이를 구체적으로 보여주는 동영상을 만들어낸다. 실제 영상을 보면, 도쿄 거리의 크고작은 간판, 건물, 그리고 실제 사람과 똑같은 보행자들, 그리고 현란한 네온사인과 야경 등을 매우 실감있게 묘사해낸다. 그야말로 ‘존재하지 않는 현실’을 스스로 ‘창조’해내는 것이다.

유리컵이 깨지지 않았음에도 내용물이 모두 쏟아진 영상에서 보듯, '소라'의 기술완성도가 아직 완벽하진 않다는 지적이다. (출처-오픈AI)

“누구나 상상․공상을 현실처럼 구현할 수 있어”

더욱 놀라운건 ‘소라’ 스스로가 카메라 감독이 되어, 영상 속에 만들어진 여성을 중심으로 카메라가 끊임없이 움직이면서 360° 혹은 다각도의 촬영기법을 선보이는 점이다. 한빛미디어 박태웅 대표는 한 유명 유튜브에서 “텍스트-동영상 전환 기술은 날로 발달하면서 존재하지 않는 세상을 다시 3D매쉬업(Mash Up)해서 추출한 다음, 이를 게임이나 자신이 만든 콘텐츠의 배경으로 쓸 수 있다”면서 “그렇게 되면 온 세상이 실제론 ‘존재하지 않는 현실’이 우후죽순격으로 ‘창조’되어 채워질 가능성도 있다.”고 예견했다.

물론 지금의 그래핑 디자이너 등의 설자리는 엄청 좁아질 수 밖에 없다. 뿐만 아니라 온갖 고급 전문직종도 대체될 수 밖에 없을 것이란 전망이다.

그러나 “그런 직업적 변화를 뛰어넘어 이는 누구나 상상과 공상을 현실처럼 만듦으로써 예측하기 어려운 세상이 펼쳐질 것”이라는 박 대표는 “그러면 결코 현실이 되어선 안 되는 상상이나 공상이 마치 실제처럼 눈 앞에 펼쳐지면서 악몽과 같은 현실이 펼쳐지지 말라는 보장이 없다”고 했다.

박 대표는 “오죽하면 오픈AI 스스로가 ‘무섭다’고 표현했을까 생각해봐야 한다”고 덧붙였다. 물론 아직은 기술완성도가 완벽하다고 할 수는 없다는 지적이다. 실제로 오픈AI가 제공한 영상을 보면, 유리컵이 깨지지 않았는데도 음료가 모두 쏟아진 장면이 나오기도 한다. 하지만 이런 한계가 극복되는 건 시간문제라는 전문가들의 의견이다.

그런 가운데 오픈AI나 마이크로소프트, 구글, 메타 등 지구촌 디지털기술을 견인하는 빅테크들은 앞다퉈 AGI를 향해 질주하고 있는 모양새다.

최근 오픈AI 등에 못지않게 AGI에 대한 의지가 강한 기업은 메타이다. 메타는 이를 위해 수 년 안으로 최신형 (엔비디아의) GPU 35만개를 확보하고, 나아가선 최대 60만개를 사입한다는 계획이다. 그야말로 엄청난 ‘디지털 군비 경쟁’을 촉발하는 셈이다. 이는 모델의 규모를 키울수록 개발자 스스로도 상상하지 못했던 경지의 AI기술이 생겨나기 때문이다.

알리바자, ‘살아있는 모나리자’ 재현?

그런 가운데 미국 못지않게 중국도 ‘소라’와 유사한 기술을 개발, 생성AI 기술 경쟁에 박차를 가하고 있다. 최근 중국의 알리바바가 공개한 모나리자 영상이 그것이다. 이는 심지어 스틸 사진 1장만 있으면, 이를 30초 분량의 영상으로 만드는 기술이다. 모나리자 사진을 바탕으로 만든 영상에선 모나리자가 낭랑한 음성으로 자신의 신상에 관해 술회하는 모습이 나온다. 마치 지금 살아있는 모습으로 착각할 정도다.

전문가들은 “이는 또 다른 기괴한 상황을 연출할 수도 있다”고 한다. 즉, 고인의 사진 한 장만 있으면 생전의 말과 행동을 그대로 담은 영상을 만들 수도 있다. 또 역사적 인물들을 사진을 바탕으로 한 동영상으로 소환, 그의 생전 말과 생각, 행동을 재현할 수 있게 된다. 그러나 “그런 상황이 빚게 될 결과가 어떻게 될지는 알 수 없다”는게 우려반 기대반의 전문가들 생각이다.