인간 세계 ‘이해’하는 ‘세계 모델’이 ‘인간 수준 AI’

행위의 의미, 자신의 행동이 세계에 미치는 영향 등 ‘이해’해야 최고의 AI권위자, 메타 얀 르쿤, 페이페이 리, 저스틴 존슨 등 예측 젠슨 황 ‘5년 내 가능’ 주장에 “섣부른 얘기…10년 내지 수 십년”

2024-10-17     전윤미 기자
영화 '매트릭스' 스틸 컷. (출처=테크레이다)

[애플경제 전윤미 기자] 엔비디아 젠슨 황의 ‘5년 후 AGI 등장’ 주장을 뒤집으며, 이번엔 “앞으로 10년 정도 있으면 ‘인간 수준의 AI’가 나올 것”이라는 예측이 등장해 주목된다. 인간의 뇌처럼 기억하고, 생각하고, 계획하고, 추론할 수 있는 AI를 말하는 것이다. 앞서 엔비디아 CEO 젠슨 황은 “5년 내로 인간의 수준을 능가하는 범용 인공지능(AGI)의 시대가 출현할 것”이라고 했지만, 이와는 달리 좀더 ‘현실적’ 시각의 예측인 셈이다.

흔히 ‘AI의 4대 대부’로 불리며 현재는 메타의 수석 AI 과학자인 얀 르쿤은 16일 “일부 AI 연구자들은 그렇다고(젠슨 황의 예측의 현실화를) 믿고 있지만, 답은 ‘아니요’”라면서 “소위 ‘세계 모델’(Worle Model)이라는 새로운 방법을 추구하면 10년 정도면 거기에 도달할 수 있을 것”이라고 내다봤다.

‘o1’ 등 최첨단 AI도 ‘세계 모델’과 비교 안돼

기술매체 ‘테크크런치’ 등에 의하면 르쿤은 “오픈AI 챗GPT에 이어 최첨단 ‘o1’이 등장하면서 복잡한 추론과 ‘생각’을 할 수 있는 AI를 기대하지만, 한 마디로 이는 어불성설”이라고 했다. 그러면서 최근 인간 수준의 AI가 ‘코앞’에 있다고 주장하는 일론 머스크나, 구글 딥마인드 공동 설립자 셰인 레그 등에 대해 “지나친 AI낙관론자”라고 지적했다.

그러면 그가 주장하는 ‘인간 수준의 AI’가 실현되려면 어떤 노력을 해야 할까. 그에 따르면 이른바 ‘세상을 이해하는 기계’가 그것이다. 즉 이해를 바탕으로 기억할 수 있고, 직관과 상식이 있고, 인간과 같은 수준으로 추론하고 계획할 수 있는 기계다. “현재의 AI 시스템은 이런 수준에는 비교도 안 된다”는 것이다.

말로는 최첨단이라고 하나, 챗GPT나 메타AI 같은 현재의 대규모 언어 모델은 ‘인간 수준의 AI’에 다가가기엔 거리가 멀다는 지적이다. 그래서 “인류가 그런 수준의 AI를 만들어내려면 적어도 수년, 아니면 수십 년이 걸릴 수 있다”는 것이다.

그가 그런 주장을 펴는데는 나름의 이유가 있다. 현재의 LLM은 대체로 몇 글자 혹은 짧은 단어 수준의 토큰을 순차적으로 예측, 작동한다. 이에 비해 이미지 및 영상 모델은 다음 픽셀을 예측하는 방식이다. 즉, 언어 모델은 1차원 예측자이고 AI 이미지 및 영상 모델은 2차원 예측자다. 이러한 모델들은 각각 1·2차 차원에서 예측하는 데 상당히 능숙하지만, 실제로 3차원 세계를 이해하진 못한다.

(사진=셔터스톡)

‘세계 모델’…주변 세계 인식 3차원 모델 등 새로운 AI 아키텍처

이로 인해 현대의 AI 시스템은 대부분 인간이 할 수 있는 간단한 작업도 제대로 못한다. 르쿤에 따르면 인간은 10살에 저녁 식탁을 치우는 법을 배우고, 17살에 자동차를 운전하는 법을 배우며 몇 시간 만에 두 가지를 모두 배운다. 그러나 현재는 수천 또는 수백만 시간의 데이터를 기반으로 구축된, 가장 진보한 수준의 AI 시스템조차도 물리적 세계에서 제대로 작동하기 어렵다.

다시 비유하자면, ‘세계’의 기본 표현(예를 들어 너저분한 방을 묘사한 영상)과 메모리가 ‘세계 모델’에 입력된다. 그런 다음 ‘세계 모델’은 해당 정보를 기반으로 세계가 어떻게 보일지 예측한다. 다시 ‘세계 모델’에게 달성하고자 하는 변화된 세계 상태(예를 들어 ‘깨끗한 방’)와, 모델이 목표를 달성하기 위해 인간에게 해를 끼치지 않도록 하는 가드레일을 포함한 목표(예컨대 ‘내 방을 청소하는 동안 나를 죽여선 안돼’라는 목표)를 제공한다. 그러면 이를 숙지한 ‘세계 모델’은 실행에 들어간다. 간단히 표현한 ‘세계 모델’의 원리라고 할 수 있다.

그래서 좀더 복잡한 작업을 수행하기 위해선 주변 세계를 인식할 수 있는 3차원 모델을 구축하고, 새로운 유형의 AI 아키텍처인 ‘세계 모델’을 중심으로 연구해야 한다는 주자이다, 그가 말하는 ‘세계 모델’은 “세계가 어떻게 동작하는지에 대한 정신적 모델”이다. 즉, 세계를 ‘이해’하는 모델이다. “동작을 취할 수 있는 일련의 행동을 상상할 수 있으며, 자신의 행동 순서가 세계에 어떤 영향을 미칠지 예측할 수 있는 AI”라는 설명이다.

다시 예를 들면, 침실을 정리하는 상황을 들 수 있다. 인간의 뇌는 널려있는 옷을 집어서 치우면 (다음 광경은) 어떻게 될지 상상할 수 있다. 여러 방법을 시도할 수도 있으며, 그렇다고 굳이 방을 청소하는 법을 배울 필요가 없다. 뇌는 그저 3차원 공간을 관찰하고, 첫 번째 시도에서 목표를 달성하기 위한 행동 계획을 수립한다. 이런 ‘행동 계획’이야말로 ‘AI 세계 모델’로 가는 비법이란 얘기다.

메타는 최근 메타AI를 휴대폰 앱으로 보급하는 한편, '세계 모델' 연구를 위한 장기 프로젝트를 진행하고 있는 것으로 알려졌다. (사진=메타)

메타, 별도 장기 프로젝트로 ‘세계 모델’ 연구

이런 ‘세계 모델’은 LLM보다 훨씬 더 많은 데이터를 수용할 수 있다. 이로 인해 계산 집약적이 된다. 그런 이유로 실제로 클라우드 공급업체가 AI 회사와 협력하기 위해 경쟁하는 것이다.

‘세계 모델’은 현재 여러 AI 연구실에서 추구하는 획기적인 아이디어로서, 최근엔 벤처 자금을 유치하기 위한 필수 의제가 되고 있다. 실제로 ‘AI의 대모’로 불리는 ‘페이페이 리’나, ‘저스틴 존슨’ 등 세계적인 AI권위자들은 이런 ‘세계 모델’의 아이디어를 구현하고자 하는 스타트업인 ‘World Labs’를 위해 2억 3,000만 달러를 모금하기도 했다. 이들 역시 르쿤과 마찬가지로 “세계를 이해하는 ‘세계 모델’이야말로 더욱 스마트한 AI 시스템의 문을 열 것”이라고 믿고 있는 사람들이다. 그런 가운데 오픈AI는 아직 보급판이 출시되지 않은 텍스트-비디오 생성기 ‘소라(Sora)’를 ‘세계 모델’이라고 설명하지만 아직은 미지수다.

르쿤은 앞서 지난 2022년 이미 ‘인간 수준의 AI’를 만들기 위해 ‘세계 모델’을 사용하는 아이디어를 개략적으로 설명한 바 있지만, 실상 “이 개념은 60년 이상 오래된 것”이라고 했다. 그에 따르면 메타는 최근 이런 목표를 향한 장기(Long Time) AI 연구실인 ‘FAIR’(Fundamental AI Research)를 운영하고 있다. 이는 그야말로 인간 수준의 AI를 위한 ‘세계 모델’을 구축하기 위해 노력하고 있다. 이곳 ‘FAIR’에선 이제 LLM도 사용하지 않는다는 설명이다. 그러나 “‘세계 모델’은 흥미로운 아이디어지만, 현실화하는데엔 별로 진전이 없다”면서 “우리가 생각하는 것보다 훨씬 더 어렵고 복잡해서 10년이 아니라 수 십년 이상이 걸릴 수도 있을 것”이라고 전망했다.