다양한 데이터로 훈련, 세계의 작동을 표현, 행동을 추론
인간 ‘뇌’처럼 감각과 추상적 표현, ‘세상을 구체적 실체로 이해’
사진, 오디오, 비디오, 텍스트 등 엄청난 학습데이터, 에너지 필요
“현 AI시스템으론 불가능”, 시뮬레이터 기술을 한층 발전시켜야
[애플경제 이윤순 기자] 전문가 일각에선 세상을 시뮬레이션하는 월드 모델 혹은 ‘세계 모델’을 차세대 AI가 만든 ‘제2의 세상’으로 표현하고 있다. 이를 구축하려는 움직임도 날로 활발해지고 있다. AI 선구자인 페이페이 리의 ‘월드 랩’은 이미 ‘대형 월드 모델’을 구축하기 위해 2억 3,000만 달러를 모금했다. 구글 딥마인드는 오픈AI의 ‘소라’의 제작자 중 한 명을 스카웃, ‘월드 시뮬레이터’를 개발했다.
이른바 ‘세계 모델’은 감각을 통해 추상적 표현을 가져와 주변 세상을 구체적인 실체로 이해하는 인간 뇌의 원리를 적극 차용한 것이다. AI 전문가들의 논문을 보면 야구 타자의 예를 든 경우가 있다. 타자는 밀리(m)초 간에 배트를 어떻게 휘두를지 결정해야 한다. 이 경우 시각 신호가 뇌에 도달하는 데 걸리는 시간보다 짧다. 그럼에도 시속 100마일의 패스트볼을 칠 수 있는 이유는 공이 어디로 갈지 본능적으로 예측할 수 있기 때문이다.
즉 “계획을 세우기 위해 가능한 미래 시나리오를 의식적으로 전개할 필요 없이 미래에 대한 예측에 따라 빠르게 행동할 수 있는 것”이란 설명이다. 세계 모델 역시 이러한 무의식적 추론 능력을 지닌 인간 수준의 지능을 겨냥하고 있다.
‘세계 모델’ 가능성 담은 초보 기술 개발 중
현재 이를 향한 초보적 기술이 이미 개발되고 있다. 예를 들어 ‘TC All Stage 2025’의 경우도 그 중 하나다. 이는 이른바 ‘세계 모델링’을 염두에 두고 있다. 이런 개념은 수십 년 동안 존재했지만 최근 생성 비디오 기술이 발달하면서 비로소 현실화될 가능성이 제기되었다. 물론 현재의 AI 생성 비디오는 ‘세계 모델’을 지향하기엔 아직 성능이 열악한 편이다. 또한 수년간의 비디오로 훈련된 생성 모델은 농구공이 튀는 것은 정확하게 예측할 수 있지만, 왜 튀는지는 전혀 모른다.
이는 언어 모델이 단어와 구문의 개념을 실제로 이해하지 못하는 것과 마찬가지다. 만약 농구공이 왜 그렇게 튀는지에 대한 기본적인 이해만 있다면, ‘세계 모델’을 구축하는 길도 열린다는게 전문가들의 의견이다. 이런 정도의 ‘통찰력’을 얻기 위해 ‘세계 모델’은 사진, 오디오, 비디오 및 텍스트를 포함한 다양한 데이터로 훈련, 세계가 작동하는 방식에 대한 표현 방식을 만들고, 행동의 결과를 추론할 수 있어야 한다.
“개발자 아닌 모델 스스로 세상 작동 방식 이해해야”
‘세계 모델’은 자신이 보고 있는 세계가 자신의 현실과 비슷한 방식으로 작동할 것이란 기대와 맞물리는 것이다. 만약 깃털이 돌덩어리처럼 무겁게 떨어지거나, 반대로 무거운 볼링공이 수백 피트 높이로 공중으로 치솟는 식의 묘사는 이미 실패작이다. 강력한 ‘세계 모델’은 제작 과정에서 인간 개발자가 각 객체의 이동 방식을 정의하는 대신, 모델 스스로 그런 세상의 작동 방식을 이해하도록 하는 것이 중요하다.
이에 대해 메타의 유명한 AI 과학자 얀 르쿤은 “세계 모델은 디지털과 물리적 영역을 관통하며 정교하게 세상을 예측하고 계획할 수 있도록 한다”고 요약하기도 했다.
올해 초에 있었던 강연에서 LeCun은 세계 모델이 추론을 통해 원하는 목표를 달성하는 데 어떻게 도움이 될 수 있는지 설명했습니다. 예를 들어 ‘세상’의 원래적 모습, 즉 더럽고 어지럽혀진 방이 영상을 접한 모델에게 ‘깨끗한 방’이란 목표가 주어지면, 그 ‘목표’를 달성하기 위한 일련의 동작을 생각해낼 수 있다. 즉 진공 청소기를 사용하여 청소, 설거지, 휴지통 비우기가 그런 동작들이다. 이는 단순히 “‘패턴’을 관찰했기 때문이 아니라, ‘더러움’에서 ‘깨끗함’으로 가는 방법을 더 깊이 알고 있기 때문”이란 분석이다.
이에 르쿤은 “한 마디로 이는 ‘세상을 이해하는 기계’다. 세상의 모든 것을 기억할 수 있고, 직관과 상식이 있는 기계다. 인간과 같은 수준으로 추론하고 계획할 수 있는 기계”라고 묘사했다. 그는 “그러나 현재의 AI 시스템은 이런 일을 할 수 없다”고 단언했다.
그러면서 자신이 상상하는 ‘세계 모델’이 나오기까지 적어도 10년은 걸릴 것으로 추정했다. 다만 “현재의 기본적인 ‘물리 시뮬레이터’ 기술이 그 가능성을 미리 보여주긴 한다”고 밝혔다.
주문형 3D 세계 생성이 기본
오픈AI는 블로그에서 ‘소라’(Sora)를 ‘세계 모델’로 간주하기도 했다. “캔버스에 붓질을 하는 화가와 같은 동작을 시뮬레이션할 수 있다”는 이유다. 물론 ‘소라’와 같은 모델은 비디오 게임 등을 통해 사물을 효과적으로 시뮬레이션할 수 있다. 마인크래프트와 같은 UI와 게임 세계를 통해 그런 효과를 낼 수 있다.
그러나 미래의 ‘세계 모델’은 게임, 가상 사진 등을 위해 기본적으로 주문형 3D 세계를 생성할 수 있을 것이란 예상이다. 이미 현재의 기술로도 대화형 세계를 만들 수 있는 능력이 있지만, 그러기 위해선 엄청난 개발 시간과 비용이 필요하다. 그러나 “‘세계 모델’을 사용하면, 이미지나 클립을 얻을 수 있을 뿐만 아니라, 완전히 시뮬레이션되고 생생하며 대화형의 모습인 3D 세계를 얻을 수 있다”는 것이다.
‘세계 모델’은 그러나 현재의 생성 모델과 비교해도 엄청난 컴퓨팅 파워가 필요하다. 최신 언어 모델 중 일부는 최신 스마트폰에서 실행할 수 있다. 그러나 초기의 ‘세계 모델’부터가 이를 훈련하고 실행하기 위해 수많은 GPU가 필요하다.
모든 AI 모델과 마찬가지로 ‘세계 모델’도 환각을 경험하고 훈련 데이터에 내재된 편견이 문제다. 예를 들어 유럽 도시의 화창한 날씨 영상으로 주로 훈련된 ‘세계 모델’은 눈이 내리는 한국 도시를 이해하거나 묘사하는 데 어려움을 겪거나, 잘못 묘사할 수도 있다. “특히 훈련 데이터가 전반적으로 부족하면 이러한 문제가 악화될 위험이 있다”는 지적이다.
또 ‘세계 모델’ 훈련 데이터는 다양하고 광범위해야 한다. 반면에 대상과 사물, 그 뉘앙스 등을 깊이 이해할 수 있도록 구체적이어야 한다.
‘AI와 현실 세계, 더욱 견고하게 연결’
AI 스타트업 런웨이(Runway)의 CEO인 크리스토발 발렌주엘라는 “그러나 데이터와 엔지니어링 문제로 인해 오늘날의 대부분 AI모델은 이 세상의 인간과 동물의 행동을 정확하게 포착하지 못한다”면 “환경에 대한 일관된 지도를 생성하고, 해당 환경에서 탐색하고 상호 작용할 수 있는 능력이 필요하다”고 비즈니스 인사이더에 밝혔다.
결국 그런 주요 장애물을 극복한다면 “‘세계 모델’은 AI와 현실 세계를 ‘더욱 견고하게’ 연결할 수 있을 것”이라며 “가상 세계 생성뿐만 아니라 로봇 공학과 AI 의사결정 분야에서도 획기적인 진전을 이룰 수 있을 것”이라고 했다.
또한 더 유능한 로봇을 만들어낼 수도 있다는 기대다. 현재의 로봇기술은 주변 세계(또는 자신의 신체)에 대한 인식이 없다. 그 때문에 스스로 할 수 있는 일이 제한적이다. 그러나 ‘세계 모델’은 어느 정도 그러한 인식을 로봇에게 제공할 수 있다. “즉, 고급 세계 모델을 사용하면 AI가 어떤 시나리오에 처해 있든, 개인적인 이해를 토대로 가능한 해결책을 추론, 생성할 수 있다”는 것이다.
