“미래의 AI, 구조화된 데이터 너머 ‘경험’을 학습”
강화학습의 권위자들, “초지능 AI, ‘경험의 시대’가 견인” 주장 “임의적이고 복잡한 외부 세계에서 학습하는 ‘메타 방법론’” “AI는 인간 사용자와 별개로, 경험에 대해 계획, 추론할 것”
[애플경제 전윤미 기자] 장차 ‘초지능’을 추구하기 위해서라도 현재의 데이터 학습을 바탕으로 하는 방식은 한계가 있다는 주장이다. 그 보단 당장의 AI에이전트부터 “구조화된 데이터가 아닌, ‘세상’으로부터 직접 학습하는 ‘경험의 시대’가 되어야 한다”는 의견이 제시되어 눈길을 끈다.
일찍이 세계적 이슈가 되었던 바둑 AI ‘알파고’를 개발했던 데이비드 실버와, 세계적인 강화학습의 권위자 리처드 S. 서튼, 두 사람이 최근 펴낸 저서에서 이같은 주장을 제기했다. 데이비드 실버가 개발한 ‘알파고’는 2016년 세계 챔피언 이세돌을 물리쳐 세계적인 화제가 되기도 했다.
“현재의 인간 이해 경계 넘어선 통찰력 필요”
두 사람은 공저 ‘알파프룹’(AlphaProof)을 통해 구글 딥마인드 프로젝트인 알파프룹(AlphaProof)를 기반으로 한 차세대 인공지능 기술에 대한 깊이있는 대안을 제시하고 있다. 세계적인 AI 권위자이자 연구원인 이들은 첨단 인공지능의 다음 단계로 소위 ‘경험 학습’을 제안했다.
이들은 “수학, 코딩, 과학과 같은 핵심 분야에서 인간 데이터에서 추출되는 지식은 빠르게 한계에 다다르고 있다.”라고 지적하며, “더욱이 생성 AI는 유용한 것을 발명하거나 ‘현재의 인간 이해의 경계’를 넘어서는 가치 있는 새로운 통찰력을 찾을 수 없다.”고 주장했다.
특히 강화 학습 분야의 저명한 인물이자 권위자인 리처드 S. 서튼은 이 분야의 다양한 기본 알고리즘을 많이 개발했다. 그런 그는 이미 2019년부터 에세이 등을 통해 ‘경험 학습’의 중요성을 강조했다. 그는 “컴퓨터 과학자들이 ‘구조화된 데이터’에만 의존하기보다는, 임의적이고 본질적으로 복잡한 외부 세계로부터 학습할 수 있도록 하는 ‘메타 방법론’을 도입해야 한다”고 주장했다.
듣기에 따라선 AI가 직접 세상 경험을 해봐야 한다는 뜻이기도 하다. 그러기 위해선 AI도구가 수시로 세상과 인간세계의 다양한 변수에 접목하며, 융합적이고 유연한 접속을 꾀해야 한다는 의미로 해석된다.
이들의 이론은 MIT 출판부에서 곧 출간될 ‘지능 설계(Designing an Intelligence)’의 발췌문인 ‘경험의 시대(The Era of Experience)’에 자세히 나와 있다. 데이비드 실버와 리처드 S. 서튼은 해당 발췌문에서도 (경험학습에 바탕을 둔) 차세대 AI 에이전트를 ‘초인적 지능’으로 가는 길로 묘사한다.
AI 개발, 시뮬레이션→데이터→경험으로 진화
실버와 서튼 두 사람은 이미 지난 10년 동안 AI 개발의 새로운 방법론을 만들어왔다. 이 모델에 따르면 바둑왕 이시돌과의 대결에서 이긴 ‘알파고’를 비롯한 머신러닝 기술은 (사실상 모방의 일종인) 시뮬레이션 시대에 이루어졌다. 그러다가 GPT-3 무렵부터 ‘인간 데이터 시대’의 시작을 알렸다는게 이들의 설명이다.
이른바 ‘경험의 시대’는 2024년 구글 딥마인드가 개발한 강화 학습 기반의 AI 시스템인 ‘알파프룹’(AlphaProof)으로부터 시작되었다.
그들은 알파프룹이 “‘정형화된 증명 시스템’과의 지속적인 상호작용”을 사용하는 강화 알고리즘을 통해 국제 수학 올림피아드에서 메달을 획득했다고 지적한다. 즉 “모델에 ‘수학’을 가르치는 대신, 수학을 할 때 얻을 수 있는 특정 ‘보상’을 원하도록 가르쳤다”는 것이다.
이들은 그래서 “AI 학습이 ‘세계 모델’ 시뮬레이션을 통하거나, 수익, 시험 결과, 에너지 소비량과 같은 데이터를 활용하는 등 ‘세계 자체’에 의해 강화될 수 있다”고 주장한다. 이들에 의하면 (그렇게 획득된) 데이터는 에이전트가 강해질수록 지속적으로 향상되는 방식으로 생성되어야 한다. 이에 비해 (가공된) 합성 데이터를 생성하는 식의 정적(靜的)인 방식은 빠르게 뒤처질 것이란 지적이다.
‘경험의 시대’의 AI 에이전트는 특히 ‘인간의 입력’뿐만 아니라, 주변의 다양한 환경에서도 수동적으로 정보를 얻을 것으로 예상된다. 즉 ‘인간의 판단’이 아닌, ‘환경에 대한 경험’에 의해 동기를 부여받을 것이란 얘기다. 그러면 “AI는 인간 사용자와는 별개로, 경험하는 것들에 대해 계획을 세우거나 추론할 것”이란 주장이다.
두 사람은 자신들이 추구하는 미래의 AI는 “사용자의 질문에 직접 답하는 것을 넘어, 장기적인 현상이나 앞으로 출현할 세계의 모습을 추구(상상)한다”면서 “반면에 현재의 AI 모델은 사용자의 선호도를 기억하고, 이미 대화를 나누며 언급된 정보에 입각해 또 다른 질문에 답변할 수 있는 수준”이라고 짚었다.
그들은 다만 그런 ‘초지능’의 시대가 초래할 ‘인간 소외’도 걱정했다. 즉 “인간 일자리의 대체는 물론, 인간이 에이전트의 행동에 개입할 기회가 줄어든 만큼, 안전 위험이 커지고, 인간이 해석하기 어려운 수준의 AI 시스템이 나타날 수도 있다”는 경고를 곁들였다.