IQ 기준, ‘천재’와 ‘범재(凡才)’를 오가는 AI
테스트 방식·변수 따라 ‘20~30’ 이상 큰 폭의 IQ 차이 오픈AI ‘o3’ 110~136, 클로드·그록3 등 80~110 오르내려 트래킹AI, “‘노르웨이 멘사’ 방식과 오프라인 테스트 차이 커” 전문가들 “AI 모델 성숙 거듭되면, 세계에서 가장 똑똑한 인간 능가”
[애플경제 전윤미 기자] 각종 벤치마크에서 첨단 AI모델 ‘IQ’에 대한 평가가 다양하게 나오면서, 논쟁까지 빚고 있다. 이 참에 AI모델 테스트에 대한 객관적 장치가 필요하다는 목소리가 높다. 그러나 “상황과 변수에 따라 AI는 천재가 될 수 있고, 평범하거나 ‘멍청이’가 될 수도 있다”는 반박도 따르고 있다.
최근 알려지기론 일종의 벤치마크인 트래킹AI(TrackingAI.org) 사이트를 통한 노르웨이 멘사 IQ 테스트의 경우 AI IQ 중 가장 높게 나온 오픈AI o3의 경우 136까지 나오고 있다. 그러나 조건과 측정방식을 바꾸기에 따라선 110선까지 떨어지는 등 심한 기복을 보이고 있다.
이 밖의 제미니2.5 프로는 128, 오픈AI o4미니는 118, o1과 클로드3 오퍼스 116, 그록3은 111, GPT-4o 비전은 100, Gpt-4o은 93, o1프로는 88, o1비전은 82, 미스트랄은 73 등이다. 대체로 인간의 IQ 평균 100~110과 유사한 수치다. 특히 o3의 IQ 136은 인간의 상위 1%에 해당할 정도여서 놀라움을 안겨준다.
그러나 역시 같은 트래킹AI 사이트에서 지난해 5월에 실시된 동일한 테스트에선 선두권의 AI들의 점수가 이보다는 크게 떨어져 눈길을 끈다.
이에 따르면 GPT 4o 버벌은 98, 비전은 70, 클로드 비전은 50 등이다. 이같은 결과는 노르웨이 멘사 IQ 테스트를 기반으로 한다. 다만 사전에 해당 테스트의 답이 온라인상에 있어서 AI모델들이 이를 미리 ‘커닝’할 수도 있다.
이에 트래킹 사이트에선 별도로 오프라인 전용 벤치마킹 테스트 장치를 새로 만들었다. 이아 관련된 자료들은 당연히 AI 학습 데이터에서 제외했다. 그런 다음 앞서 테스트에 사용한 퀴즈를 포함해 새로 마련한 문제를 풀도록 함으로써 문제 난이도를 조정했다.
이처럼 AI 데이터셋에 없는 문제를 대상으로 테스트한 결과는 또 다른 결과를 보여줬다. 이에 따르면 o3은 116, o3미니는 105, o4미니는 98, 그록3은 89, 비전은 63 수준 등이다.
이 경우도 o3의 IQ는 116으로, 인간 상위 15%에 속한다. 참고로 해당 테스트 대상 모델의 평균값은 104였다.
그러나 이처럼 테스트 방식과 조건을 바꾼 결과는 그때마다 전혀 다른 결과르 보였다. 특히 11개월 전, AI보다 IQ 테스트에서 상위권을 차지한 AI들이 대표적이다. 당시 100~120선을 보였던 클로드 비전은 50, GPT 4o은 비전 60, 버벌은 70에 머물렀다.
이 경우 테스트 방식이 새롭게 만들어졌으며, 어떤 AI 학습 데이터셋에도 관련된 내용이 포함되어 있지 않다.
테스트 결과를 종합하면, 노르웨이 멘사 방식에선 제미니2.5 프로 115, 오픈AI o3 110, 클로드 3.7 소네 110, o3 미니 104, 04미니 104 등이 100을 넘었다. 또 o1 프로(비전) 97, 4.5프리뷰 95, 라마 4매브릭 94, 클로드3.7 비전92, o1 비전 90 등이 90을 넘었다. 그 뒤를 이어 그록3 싱크 89, o1 87, 제미니 2.0 프래시 싱킹 86, 클로드3 오퍼스 85, o1프로 81, o3미니 하이 80, 딥시크 R1 80가 각각 80을 기록했다.
또 IQ 70대엔 딥시크 V3 77, 제미니 어드밴스트 비전77, 그록3 71, 라다3.2 71, o4미니 하이 70 등의 순이었다. 그 뒤를 이어 4o 비전 67, 빙 코파일럿 67, 4o 64, 미스트랄 64 순이었다. 여기서 딥시크가 IQ 77 내지 80을 보여 오픈AI나 구글 제미니, 앤트로픽 클로드에 크게 뒤처진 결과가 나와 다소 의외란 느낌을 주고 있다.
다만 오프라인 테스트에서 순위가 거의 같았으나, 오픈AI o3이 132로 가장 높았고, 제미니 2.5 프로 128에 달했다. 그 뒤를 이어 클로드 3.7 소네 110, 라마4 매브릭이 105, 오픈AI o3 미니와 o4미니가 104로 같았다. 또 GPT 4.5 프리뷰가 101 등으로 나타났다.
이같은 오차에 대해 벤치마크 테스트 전문매체인 ‘맥시멈 트루스’처럼 테스트 결과를 적극 옹호하는 시각도 있다. “이들 테스트 중엔 특히 o3가 가진 극단적인 (벤치마크 점수) 폭의 가치를 과소평가하고 있다”는 것이다. 다시 말해 상황과 변수에 따라 큰 폭으로 평가점수가 오르내리는 것은 당연하다는 얘기다.
그럼에도 ‘맥시멈 트루스’는 “챗GPT의 o3 모델은 처음 추론할 때는 IQ가 116인 사람과 비슷하지만, 발전을 거듭할수록 ‘전 세계의 지식을 기억하고 있는 사람’과 같은 수준”이라고 높이 평가했다.
다시 말해 이미 답이 정해진 질문에 대한 추론에서는 o3가 IQ가 136인 사람과 더 비슷해 보인다. 그러나 처음부터 답을 찾을 수는 없더라도 나중엔 “가장 똑똑한 사람들의 작업을 포함하여 전 세계의 지식을 기억하고 있기 때문”이란 얘기다. 그야말로 세계 어떤 천재 인간이라도 이를 따라잡을 수 없다는 것이다.
많은 전문가들은 여전히 “AI는 지식을 되뇌일 수는 있지만, 생각할 수는 없다”고 평가한다. 그러나 이번 테스트에 참가한 전문가들은 “AI는 사물을 느낄 수는 없지만, 생각할 수는 있습다”면서 “즉, 복잡한 패턴을 추론하여 이전에는 볼 수 없었던 문제를 해결할 수 있다”고 했다.
즉 테스트 환경과 변수에 따라선 “AI 비전의 발전 과정과 이를 통해 AI가 물리적 세계와 상호 작용하는 방식, 그리고 AI 정치까지 포함해 무한한 변화를 보일 수 있다”는 주장이다. 그것을 이번 트래킹AI와 노르웨이 멘사 등의 IQ 테스트가 증명해보였다는 것이다.