구글, ‘세계 모델’ 개발 박차, ‘제2의 세상’을 상상, 재현
메타, “세계가 어떻게 행동하는지를 상상, 구현한 모델”
텍스트-비디오 AI 모델, 비디오 게임 등을 토대로 기술 응용

'세계 모델'을 시사하는 이미지. (출처=디카트)
'세계 모델'을 시사하는 이미지. (출처=디카트)

[애플경제 이윤순 기자] ‘제2의 세상’ 내지 ‘제2의 지구’를 떠올리게 하는 ‘세계 모델’(World Model)에 대한 관심이 높다. 현실의 이 세상이나 세계를 AI를 사용해 똑같은 모양으로 시뮬레이션한다는게 그 뜻이다. 처음으로 메타가 이에 관한 구상을 내놓은데 이어, 최근엔 구글이 이를 구체화한 개발에 가속도를 붙이고 있다.

이미 지난해부터 이 작업을 시작해온 구글은 최근엔 이처럼 현실의 물리적 세계를 시뮬레이션할 수 있는 생성 모델을 구축하기 위해 딥마인드 연구 요원을 대폭 채용, 보강하고 있다는 소식이다. ‘세계 모델(World Model)’ 실현에 한층 가속도를 내겠다는 의도로 읽힌다.

온 지구와 세상의 모습, 실시간으로 재현

이는 그간 텍스트-영상 AI모델 정도가 아니라, 그런 기술을 기반으로 전지구와 온 세상의 모습을 모두 실시간으로 재현한다는 야심만만한 계획이다. 이를 위해 일찌감치 오픈AI의 텍스트-비디오 생성기인 소라(Sora)를 개발한 장본인 중 한 사람인 팀 브룩스가 팀장을 맡았다. 특히 이 프로젝트는 범용의 초지능인 일반 인공지능(AGI) 개발과 맞물리는 작업으로 해석되고 있다.

‘세계 모델’은 간단하게 표현하면, 이 세상이 실제로 어떻게 작동하는지를 그대로 재현(시뮬레이션)하는 것이다. ‘소라’와 같은 텍스트-비디오 생성 모델은 이전에 훈련 데이터에서 본 것을 복제할 수 있지만, 그 일이 왜 일어나는지에 대한 실제 이해는 없다. 마치 야구공을 던지는 사람의 모습을 영상으로 생성할 수는 있지만, 그 다음 혹은 그 전엔 어떤 일이 일어나고 있는지, 일어날 것인지에 대한 물리적 이해는 불가능하다. 이에 “‘세계 모델’은 기계에 실제로 행동이 어떻게 일어나고 그에 따른 결과가 어떻게 될지 분석할 수 있는 충분한 정보를 제공하는 것”이란 설명이다.

10월에 OpenAI에서 퇴사한 후 딥마인드에 합류한 브룩스와 그의 팀은 “세상을 시뮬레이션하는 거대한 생성 모델을 만들려는 야심 찬 계획”임을 공표하고 있다. 이에 따르면, ‘세계 모델’을 구축하려는 노력은 “시각적 추론 및 시뮬레이션, 구체화된 에이전트 계획, 실시간 대화형 엔터테인먼트와 같은 수많은 도메인에 동력을 공급하는 것”에서부터 시작된다.

이같은 ‘세계 모델’ 개념은 이미 다른 빅테크들도 공유하고 있다. 메타의 유명한 AI 과학자인 얀 르쿤도 최근 한 연설에서 ‘세계 모델’을 언급했다. 그는 “‘세계 모델’은 세계가 어떻게 행동하는지에 대한 ‘정신적 모델’”이라며 “취할 수 있는 일련의 행동을 상상할 수 있으며, ‘세계 모델’을 통해 일련의 행동이 세계에 어떤 영향을 미칠지 예측할 수 있다.”고 했다.

구글의 '제니'가 생성한 화면 이미지. (출처=구글)
구글의 '제니'가 생성한 화면 이미지. (출처=구글)

시각적 추론·시뮬레이션, 에이전트, 대화형 도구 등에 기반

‘세계 모델’은 모델을 실행하는 데 필요한 엄청난 양의 컴퓨팅과, 정확한 모델을 만드는 데 필요한 충분한 학습 데이터가 필요하다. 그러나 현실적으론 그럴만한 데이터와 컴퓨팅 능력이 부족하고, 더욱이 대부분의 AI모델이 제한적이고 특정한 맥락에서만 작동한다는 등의 한계로 불가능한 것으로 인식되곤 했다.

그러나 그런 불가능한 영역에 메타 등이 그 가능성을 탐색한데 이어, 구글 딥마인드 팀이 구체적인 개발에 들어간 것이다. 이들은 한 발 나아가서 ‘세계 모델’을 한층 광범위하게 확장하려는 의도를 내비치기도 했다. 즉, 애초 구상했던 모델 위에 ‘실시간 대화형 생성 도구’를 구축하고, 궁극적으론 ‘세계 모델’을 구글의 LLM인 제미니에 통합하는 방법을 모색할 것으로 알려졌다.

그 중 딥마이드가 우선 시도하고 있는 것은 비디오 게임이다. 이를 위해 기존 구글의 텍스트-비디어 AI모델인 ‘Veo’ 및 제니(Genie) 팀과 협력할 것으로 전해졌다. ‘제니’는 오픈AI의 ‘소라’와 유사한 비디오 생성 모델이다. 이는 실시간으로 3D 환경을 시뮬레이션할 수 있다. 알고보면 비디오 게임은 이미 AI 도구를 통해 사실상 현실 세계를 가장 광범위하게 시뮬레이션하고 있는 ‘미니 세계 모델’에 비유되기도 한다.

그래서 ‘세계 모델’은 기존 비디어 게임의 시뮬레이션 기법을 토대로 발전해갈 것으로 전망되기도 한다. 일각에선 “이를 개선하는 것이 처음부터 ‘세계 모델’을 모델링하는 것보다 한층 수월하게 개발할 수 있는 방안”이란 주장도 나온다.

<(2-②)에 계속>

저작권자 © 애플경제 무단전재 및 재배포 금지