AI모델 IQ, 인간 평균 넘는 120, “내년엔 수재급 140”
‘멘사 IQ테스트’…오픈AI ‘o1’모델 120, 실험 참가 40명 평균은 ‘100’ ‘클로드3 오퍼스’는 ‘100’, “내년쯤, 오픈AI 혹은 ‘클로드’ 140 도달 가능” 3~4년 내 IQ 160~180 수준 ‘클로드6’ 출현 등 ‘초지능’ AI
[애플경제 전윤미 기자] 생성AI의 버전이 높아질수록 IQ도 높아지며, 결국은 인간의 지능을 넘어설 것으로 예상된다. 실제로 노르웨이 ‘멘사 IQ 테스트’에서 오픈AI가 최근 최첨단 GPT인 ‘스트로베리’의 첫 번째 제품인 ‘o1’이 이를 입증하고 있다. 해당 테스트에서 o1은 IQ 120을 기록, 인간의 평균 수준을 뛰어넘었다. 제시된 35개 질문 중 정확히 25개를 맞혀 IQ 120을 기록한 것이다.
‘멘사 IQ 테스트’를 주관한 통계 분석 사이트 ‘맥시멈 트루스’는 이 실험에서 기존 GPT-4o나 앤트로픽의 클로드1~클로드3은 100을 넘지못했다. 그러나 클로드의 경우 향후 업그레이드된 버전이 나올 경우, IQ 140을 넘어서면서 인간을 훨씬 뛰어넘을 것으로 예상되었다.
12개의 LLM모델 대상 IQ 테스트
이번 IQ 테스트에선 오픈AI의 GPT 시리즈와 앤트로픽의 클로드 시리즈 등 12개의 LLM 모델이 대상이 되었다. 오픈AI의 ‘o1’프리뷰, 라마 3.1, 그록(Grok)-2, 제미니 어드밴스드 비전, 제미니 어드밴스드, GPT4 옴니(비전) 모델 2개 챗GPT-4, 빙 코파일럿, 클로드3.5 소네트, 클로드-3 오퍼스, 클로드-3 오퍼스 비전 등이다.
테스트에선 이들 생성AI의 LLM이 미리 문제를 학습하지 못하도록 매번 새로운 문제로 바꿔가며 진행했다. 또 인간 지능과 비교하기 위해 그때마다 40명의 사람들에게 AI와 동일한 문제를 풀게 했다. 실험 결과 인간의 IQ평균은 100이었다. 반면에 기존 오픈AI의 GPT-4o나 앤트로픽의 최첨단 클로드-3 Opus 등은 100을 넘지 못했다.
일단 지금까지 출시된 대부분의 생성AI 제품들은 인간의 지능에 미치지 못한 것으로 드러났다.
그러나 실험을 거듭할수록 그 결과는 놀라웠다. 오픈AI가 최첨단 제품으로 출시한 ‘o1’의 IQ가 무려 120에 달했다. 인간 평균보다 20이나 높은 수준을 보인 것이다. “‘o1’모델은 궁극적으로 인간보다 AI가 더 똑똑해질 것”이란 세간의 예측을 현실로 보여준 셈이다. 물론 IO가 모든 지능과 능력을 대변하는 것은 아니다. 그럼에도 불구하고, 일부 지적 능력 측면에서 AI가 벌써 인간을 추월했다는 사실은 예삿일이 아닌 셈이다.
‘클로드’ 시리즈 진행될수록 IQ 급속 상승
뿐만 아니라 더 놀라운 것은 ‘클로드’ 시리즈였다. 이번 실험 과정에서 클로드 시리즈는 버전이 업그레이드될수록 IQ가 일관된 상승 현상을 보였다.
우선 ‘클로드-1’은 IQ가 64였고, ‘클로드-2’는 그보다 IQ 포인트 18점이 상승한 82점에 달했다. ‘클로드-3’은 더욱 상승해서 IQ 포인트 19점을 더 받음으로써 IQ 101을 기록했다. 이 역시 조사 대상자 40명 평균치인 100과 거의 같은 수준이어서, 놀라움을 안겼다.
더욱이 ‘클로드’는 일정 주기를 두고 지속적으로 업그레이드된 제품이 출시된다. ‘클로드-1’이 지난 2023년 3월에 출시되었고, 그로부터 4개월 후에 ‘클로드-2’가 나왔으며, 다시 8개월 후 ‘클로드-3’이 출시된 것이다.
그렇다면 언뜻 생각해도 ‘클로드-4’는 앞으로 12~16개월 안에 출시될 것으로 예상할 수도 있다. 그 동안 ‘클로드1’~‘클로드3’에 이르는 발전 속도를 감안하면 앞으로 출시될 ‘클로드-4’의 업그레이드 수준을 충분히 짐작할 수 있다. 즉, 그때쯤이면 ‘클로드-4’의 IQ가 120에 달할 것으로 충분히 예상할 수 있다.
그렇다면 앞으로 다시 16~32개월 후에 나오게 될 ‘클로드-5’는 약 31개의 질문에 답함으로써 IQ 점수가 약 140이 될 것이란 계산이 나온다.
그 후 20~64개월 후에 만약 ‘클로드-6’이 나오면 어떻게 될까. 아마도 ‘클로드-6’은 35개의 모든 질문에 답하고, IQ가 160~180 수준에 이르러 거의 모든 사람보다 더 똑똑해질 것으로 예상된다. 이렇게 되기까지 걸리는 기간은 모두 4~10년에 달할 것으로 보인다.
‘맥시먼 트루스’ 측은 “물론, 당연히 그런 진전이 이뤄진다고 단언할 수는 없다. (‘클로드’를 개발한) 앤트로픽이 예산이나 전력 등 에너지 문제, 규제 등에 부딪혀 계획에 차질을 빚을 수 있기때문”이라고 했다. 그럼에도 현재의 발전 속도가 타임스케줄이 진행된다는 가정한다면, “분명 2026년엔 AI가 IQ 140을 돌파할 가능성이 크다”는 것이다.
특히 “오픈AI가 현재의 추세에선 앤트로픽의 ‘클로드’보다 늘 6개월 정도 앞서 가곤한다.”면서도 “(140을 넘어서는 AI가 오픈AI가 될지, 아니면 앤트로픽이 될지는 두고 볼일”이라고 했다.
딥러닝 모델 출현 10여 년만에 인간 IQ 넘어서
이같은 발전은 불과 10여 년만에 일어난 것이다. 제프리 힌튼이 최초의 딥러닝 모델인 ‘AlexNet’을 발표한게 지난 2012년이었다. GPT-2는 2019년, GPT-3는 2020년, 챘GPT는 2022년에 나왔다. 딥러닝이 등장한지 불과 12년만에 AI가 인간의 지능을 넘어선 것이다. 물론 IQ가 지능을 판단하는 유일한 지표는 아니지만, 그 자체만으로도 충분히 놀랄만한 일이란 얘기다.
실제로 이번 IQ 테스트를 분석한 ‘맥심 트루스’의 애널리스트 맥심 로트는 “이 테스트 결과에 상당히 놀랐다.”면서 “지난 6개월 동안 테스트를 거듭한 결과 AI가 IQ 100을 넘어선 적이 없었기 때문에 ‘거짓된 안주감’에 빠져 있었기 때문”이라고 했다. 즉 ‘설마하니’ 했던 것이 완전히 뒤집히고 말았다는 얘기다.
그러면서 그는 “기존의 통념과는 달리 AI는 단순히 알고리즘에서 뽑아낸 단어를 토해내는 것이 아니다. 다음 단어를 예측하는 것이 복잡해져서 예측 과정에서 논리와 추론이 발생하는 듯하다”고 생성AI의 원리를 새삼 소환했다.
앞으로 ‘맥심 트루스’는 “평균적인 인간 지능을 중심으로 한 더 큰 집단을 대상으로 이러한 테스트를 반복해서 표준화할 계획”이라고 밝혔다. 그렇게 함으로써 인간과 AI를 보다 정확하게 비교할 수 있을 것이란 판단이다. 다만 “지금으로서는 선두를 달리는 AI의 IQ가 100에서 120 사이 어딘가에 있을 것이라고 추정하는 것이 적절하다”고 결론지었다.