“AI의 다음 단계…‘언어’를 넘어선 ‘세계 모델’”
학습된 지식의 LLM과 달리, 현실 세계 작동 방식 ‘이해’ 영상·시뮬레이션 데이터, 공간, 객체, 물리적 역학 내부에 구축 ‘세상’의 매순간 예측, ‘사물’의 상태와 동작, 시간의 흐름 등 ‘트윈’
[애플경제 전윤미 기자] LLM을 넘어 AI의 ‘새로운 영역’이 점차 주목도를 높이고 있다. 현실을 이해하고 시뮬레이션할 수 있는 ‘세계 모델’이다. LLM은 학습된 지식과 정보는 풍부하지만, 현실 세계(인간과 자연의)의 작동 방식에 대한 이해는 부족하다.
이에 AI 분야의 거장들이 세계 모델 개발에 참여하고 있다. 그중 머신러닝 분야의 신화적 존재인 얀 르쿤을 비롯, ‘월드랩스’의 훼이훼이 리 등이 대표적이다. 얀 르쿤은 향후 몇 달 안에 메타를 떠나 ‘세계 모델’ 스타트업을 설립할 계획으로 알려졌다.
구글과 메타 역시 로봇과 비디오 모델을 더욱 사실적으로 만들기 위해 ‘세계 모델’을 개발하고 있다. 오픈AI는 “더욱 발전한 비디오 모델을 구축하는 것 또한 ‘세계 모델’로 나아가는 길이 될 수 있다”고 주장한다.
세계 모델은 영상이나 시뮬레이션 데이터, 각종 공간 입력을 학습하고, 객체와 장면, 물리적 역학에 대한 표현을 내부에 구축한다. 언어 모델은 흔히 다음 단어를 예측한다. 그러나 ‘세계 모델’은 ‘세상’에서 다음에 무슨 일이 일어날지 예측하고, ‘사물’이 어떻게 움직이고, 충돌하며, 떨어지는지, 또 어떻게 상호작용하고, 시간이 지남에 따라 지속되는지를 면밀히 파악하고 이를 모델로 구축한다.
말 그대로 “세상의 작동방식을 직관하며, 그대로 옮겨 모델링하는 것”이다.
‘월드랩스’나 르쿤의 논문에 의하면 이는 궁극적으로 중력이나, 물체의 영속성, 인과관계와 같은 개념을 굳이 (언어로) 프로그래밍하지 않고도 이해하는 모델을 만드는 것이다.
그런 면에서 ‘디지털 트윈’과 비슷해보이지만, 그 실체는 전혀 다르다. 아예 ‘제 2의 디지털 세계’ 또는 ‘제2의 디지털화된 세상’을 만드는 개념이다. 예를 들어 기업이 특정 장소나 환경의 ‘디지털 버전’을 만드는 것이다. 물론 센서에 실시간 데이터를 제공, 원격 모니터링이나 유지 관리 예측을 가능하게 한다.
이런 모델은 로봇에서부터 비디오 게임에 이르기까지 모든 분야에 유용한 AI를 구축하는 데 핵심적인 역할을 한다.
세계 모델 또한 방대한 양의 정보가 필요하다. 하지만 융합되지 않았거나, 쉽게 구할 수 있는 데이터에서 얻어야 한다. 르쿤은 “‘세계 모델’을 개발하는 데 있어 가장 큰 장애물 중 하나는 에이전트가 물리적 환경을 어떻게 인식하고 상호작용하는지 파악하기 위해 방대한 규모의 고품질 멀티모달 데이터가 필요하다는 사실”이라고 지적했다.
‘세계 모델’을 위한 대규모의 오픈소스 데이터 세트도 다수 구축되었다. 이들은 이미지, 비디오, 텍스트, 오디오, 3D 포인트 클라우드를 포함한 10억 개의 ‘데이터 쌍’과, 수개월에 걸쳐 수집된 수 백 만 개의 인간 세상에 대한 ‘해석’을 제공한다. 그러나 “이 정도는 단지 기본적인 것일 뿐”이라는 전문가들의 견해다.
앞서 르쿤은 “3~5년 안에 LLM이 아닌, ‘세계 모델’이 AI 아키텍처의 주요 모델이 될 것”이라고 단언한 바 있다. 그러면서 “그 시점엔 상식이 있는 사람이라면 오늘날 우리가 사용하는 유형의 LLM을 사용하지 않을 것”이라고 지난 달 MIT에서 열린 심포지엄에서 주장하기도 했다.
경쟁 또한 치열하다. 우선 텐센트를 포함한 중국 기술 기업들은 물리학과, 3차원 데이터에 대한 개념을 포함한 ‘세계 모델’을 개발하고 있다. 또 AI 분야에서 최근 두각을 나타내고 있는 아랍에미리트의 ‘모하메드 빈 자이드 인공지능 대학교’는 세계 최초의 세계 모델인 ‘PAN’을 발표했다.
‘세계 모델’은 다양한 용도로 널리 활용될 것으로 보인다. 그럼에도 불구하고, 현재의 LLM만큼 빠르게 발전할 수 있을지는 아직 불확실하다. 다만 일부 소수 과학자들이 제기한 후, 날이 갈수록 새로운 관심과 투자의 물결이 일고 있는 현실이다.