AI의 오랜 기원이자 종착점, ‘월드 모델’
세계와 세상의 작동 원리 인코딩, 인지 즉시 계산·평가 수많은 석학과 과학자, AI연구자들 “최종적인 AI 기술의 목적지” “모두 동의할 핵심 개념 찾지 못하고 있다는 점이 문제” ‘신경망의 통계적 융합의 결과’ vs ‘새로운 非생성 AI 아키텍처’
[애플경제 김홍기 기자] ‘세상의 작동 방식’을 통째로 AI모델이 내장하고 있다면? 이는 삶과 세상의 이치를 꿰고 있는 지혜로운 ‘인간’과 크게 다를 바 없다. 이런 AI 시스템, 즉 ‘월드 모델’은 특히 ‘일반 인공 지능(AGI)’을 연구에서 가장 큰 과제이자 화두다. 인공지능이 처음 등장할 때부터 이를 꿈꾸었던 과학자들은 이제 다시 AI의 종착점인 ‘월드 모델’로 향해 나아가고 있다.
‘월드 모델’은 (세상의 복잡한 작동 원리를) 단순화한 정보와 표현을 통해 사안을 예측하고 의사결정의 타당성을 사전에 평가할 수 있다.
딥러닝 분야의 거장인 메타의 얀 르쿤이나, 구글 딥마인드의 데미스 하사비스, 캐나다 인공지능 연구소 ‘밀라’의 요슈아 벤지오 등은 ‘월드 모델’이야말로 “스마트하고 과학적이며 안전한 AI 시스템을 구축하는 데 필수적”이라고 믿는 선구자들이다.
심리학, 로봇공학, 머신러닝 분야에서는 수십 년 동안 이를 겨냥한 다양한 버전의 개념을 도출해왔다. 그러나 정작 문제는 “AI 연구자들이 모두가 동의할 수 있는 핵심 개념을 찾지 못하고 있다는 점”이다. 그야말로 ‘코키리’를 둔 제나름의 해석과도 같다. 즉, 모델에는 무엇이 표현되고, 얼마나 충실하게 표현될 것인가, 선천적인 것일까, 학습된 걸까, 아니면 둘의 조합일까, 그리고 그것이 존재한다는 것을 어떻게 알 수 있을까 등등에 관한 개념 정리와 정의가 일치되지 않고 있다.
‘월드모델’의 기원, 70여 년 전으로 거슬러 올라가
구글 딥마인드에 의하면 애초 ‘월드모델’은 오랜 연원 내지 기원을 갖고 있다. 제2차 세계대전이 한창이던 1943년으로 거슬렁올라간다. ‘인공지능’이라는 용어가 등장하기 십 수 년 전이다. 당시 29세의 스코틀랜드 심리학자 케네스 크레이크는의 논문이 시발점이다. 논문에서 그는 “유기체가 외부 현실에 대한 '소규모 모델'을 머릿속에 가지고 있다면, 다양한 대안을 시도해 보고 그중 가장 좋은 것을 결정하며, 모든 면에서 훨씬 더 충만하고 안전하며 유능한 방식으로 반응할 수 있다”고 주장했다.
크레이크의 (당시 표현인) ‘정신 모델’ 또는 ‘시뮬레이션’ 개념은 ‘인지’를 ‘계산’과 직접 연결한 점에서 획기적이다. 즉 사물이나 대상이 눈에 띄어 인지된 순간, ‘저절로’ 그에 관한 계산과 평가가 이뤄지는 인간의 인지능력과 같다. 즉 ‘외부 사건을 병렬화하거나 모델링하는 능력’은 ‘신경 기계’와 ‘계산 기계’의 근본적인 특징이라고 봤다.
그 후 초창기 인공지능 분야는 이런 개념의 ‘세계 모델링’ 접근법을 적극적으로 채택했다. 1960년대 후반, ‘SHRDLU’라는 AI 시스템은 초보적인 ‘블록 세계’를 사용, “피라미드가 블록을 지탱할 수 있을까?”란 질문처럼, 탁상용 물체에 대한 상식적인 의문에 답함으로써 관찰자들을 놀라게 했다.
하지만 이러한 ‘수작업’ 모델은 현실 세계와 세상의 복잡성을 처리하는데 한계가 있었다. 결국 1980년대 후반, AI 및 로봇 공학의 선구자 로드니 브룩스는 ‘월드 모델’을 완전히 포기했다. 그러면서 “세계는 그 자체로 최고의 모델”이라고 주장하며 “이에 관한 (‘월드 모델’이라는) 명시적인 표현은 방해가 될 뿐”이라고 했다.
대신 그 보다 오래 전의 크레이크의 아이디어에 다시 ‘생명’을 불어넣기 위해서는 머신 러닝, 특히 인공 신경망 기반 ‘딥 러닝’의 부상이 필요했다. 그 후 지난 몇 년 동안 챗GPT를 비롯해 챗봇의 기반이 되는 LLM이 훈련되지 않았지만, 숨겨져있던 새로운 기능들을 보여주기 시작했다.
예를 들어 이모티콘 문자열에서 영화 제목을 유추하거나, 보드게임을 플레이하는 것이 그런 경우다. 이는 크레이크가 상상했던 것처럼 LLM의 가상 뉴런 덤불 깊숙한 어딘가에 ‘외부 현실(세상)의 (통째로 복사된) 소규모 모델’이 숨겨져 있을 것임을 상상할 수 있게 했다. 곧 ‘‘월드 모델’이 존재할 수 있음을 보여주면서 제프리 힌튼, 일리아 수츠케버, 크리스 올라 같은 현대 AI 문명의 선도자들이 이를 확신하며, 본격 연구에 나서게 되었다.
그럼에도 아직 오늘날의 생성 AI는 ‘월드 모델’은 커녕 수시로 발생하는 ‘휴리스틱’(단편적 확증편향, 고정관념 등)을 학습하는 것처럼 보인다. 즉, 특정 시나리오에 대한 유사한 반응은 가능하지만, ‘일관된 전체로 응집’되지 않는 수많은 ‘단절된 경험’들의 집합이다. 상당수는 서로 모순될 수도 있다.) 이는 마치 각 사람마다 코끼리의 한 부분만 만져보고, 그 전체 모습을 파악하지 못하는 이치와 같다.
수많은 생성AI 기술이 응고, ‘월드 모델’로 결집?
물론 이러한 ‘휴리스틱’이 쓸모없는 것은 아니다. LLM은 수조 개의 매개변수 안에 셀 수 없이 많은 양의 휴리스틱을 인코딩할 수 있으며, 그 자체가 품질로 이어진다. 하버드 대학교와 MIT의 연구자들이 최근 발견했듯이, 마치 한 도시 전체 도로망을 포괄하고 있는 것과같은 ‘월드 모델’과는 전혀 다른 모습들이다. 즉 복잡하면서 서로 지엽적인 부분에선 상충되는 ‘추측’들을 모아놓은 지금의 AI 대신, 전체 세부 정보가 모조리 인코딩된다면, 어떤 장애물을 쉽게 피하며 문제를 해결할 수 있었을 것이다. 곧 ‘월드 모델’의 효용이 그렇다.
이에 실리콘밸리와 세계 각국의 과학자와 AI 연구실이 이를 개발하기 위해 사력을 다하고 있다. 견고하고 검증 가능한 ‘월드 모델’은 ‘AGI’ 혹은 그것을 뛰어넘는 것일 수도 있다. 세계와 세상의 원리를 속속들이 꿰고 있고, 적어도 AI 환각을 해소하고 신뢰할 수 있는 추론을 가능하게 할 것으로 기대된다
그래서 현재의 수많은 생성AI 기술이 응고될 경우, 마침내는 ‘월드 모델’이 그 결정체로 등등장할 것이란 예상도 있다. 예를 들어 구글 딥마인드와, 오픈A의 비디오 기술, 3D 시뮬레이션, 그리고 단순한 텍스트 이외의 고도의 ‘멀티모달’ 학습 데이터 등이 그 재료가 될 수도 있다.
구글 딥마인드는 “마침내 신경망의 통계적 융합의 결과, ‘월드 모델’이 자연스럽게 응고될 것이라고 확신하고 있다.”고 했다. 이에 반해 메타의 얀 르쿤은 “완전히 새로운 (그리고 비생성적인) AI 아키텍처가 필요한 기반을 제공할 것”이라고 했다. 세계 최고의 전문가들 사이에서도 전망이 엇갈릴 만큼 ‘월드 모델’은 난망한 AI문명의 과제로 부상하고 있다.