“상위권 AI, IQ 테스트, ‘130’까지 상승”
오프라인 테스트, ‘클로드, 그록, 챗GPT 프로 등이 상위권’ ‘라마’도 돌발적 상승, “챗GPT-5는 모델 이름 변경에 불과” 노르웨이 멘사 테스트’에선 챗GPT 프로 ‘148’ 기록 이변 “‘멘사’는 문제 공개로 ‘오프라인’ 테스트보다 신빙성 약해” 지적 대부분의 상위권 AI, “논란 여지 있지만, 매년 2.5점씩 IQ 상승”
[애플경제 전윤미 기자] 인간의 IQ지수로 본 AI의 성능은 날로 빠르게 고도화되고 있다. 한켠에선 “AI 발전이 (생각했던 것보다는) 둔화되고 있다”는 관측도 나오고 있다. 예를 들어 뉴요커는 “AI가 이보다 더 나아지지 않는다면 어떨까?”라고 궁금해하는 반면, 월스트리트저널(WSJ)은 “대규모 언어 모델의 발전 속도가 둔화되었다”고 한때 단언하기도 했다.
“전반적으로 AI는 꾸준하게 선형적, 점진적 발전”
그러나 일련의 심층 분석·조사에 의하면, AI는 여전히 ‘선형적’으로 발전하며 지능을 빠르게 높여가는 것으로 파악되고 있다. 정기적인 AI IQ를 측정하는 ‘트래킹 AI’와 역시 이를 지속적으로 추적 분석하는 사이트 ‘맥시멈 트루스’ 등에 의하면 약 1년 6개월 만에 상위권 AI IQ는 80점대 중반에서 최고 약 130점으로 치솟았다. “이는 보통의 고등학교 중퇴자와 대학에서 수학 학위를 취득하는 사람과 거의 같은 수준”이란 풀이다.
이에 따르면 2024년 5월부터 2025년 10월까지 이들 상위권 AI는 매달 평균 2.5점씩 IQ가 향상되었다. 비교적 꾸준하고 선형적이며 점진적인 발전을 이룬 결과란 분석이다.
추이 분석에선 때론 돌출 현상도 있었다. 예를 2024년 7월과 8월에는 그전과는 달리, (앤스로픽의) 클로드의 점수가 하락하고 (메타) 라마가 선두를 차지했다. 이에 대한 해석은 분분하다. 측정 오류이거나, 클로드가 어려운 문제에 대한 계산량을 줄이기 위해 모델을 조정했을 수도 있다는 해석도 가능하다. 그러나 “전반적인 추세를 살펴볼 때는 이 부분은 무시하는 것이 좋다”는게 ‘맥시멈 트루스’의 견해다.
8월의 경우 오픈AI가 많은 기대를 걸었던 최신 모델 챗GPT-5는 “결국 기존 모델의 이름을 대부분 변경한 것에 그쳤다”는 평가다. “그 때문에 일부 전문가들은 AI가 전반적으로 발전하지 않고 있다고 생각하게 되었다”는 것이다.
반면에 일론 머스크의 그록은 자사의 최상급 모델을 약 120에서 130으로 IQ를 끌어올리며 선두권에 진입했다. 앤스로픽의 클로드 4 오퍼스 또한 지난주엔 그록과 동률을 이루었다.
문제 공개 ‘멘사’ 테스트, 온라인이나 학습 데이터에도 ‘정답’
이 무렵 다른 IQ 측정 지표에서도 유사한 현상을 보였다. 앞서 있은 ‘오프라인 테스트’ 외에도 ‘노르웨이 멘사 테스트’가 특히 눈길을 끈다. ‘멘사’에서 가장 똑똑한 AI는 챗GPT Pro였다. 이는 35개 문제 중 34개를 맞혀 IQ 148점이란 놀라운 점수를 획득했다.
‘오프라인’과 달리 ‘멘사’ 문제 중 일부는 공개되었다. 이를 보면 (AI IQ에 대한) 전반적인 느낌을 어느 정도 짐작할 수 있다.
우선 모든 AI가 정답을 맞히는 가장 쉬운 문제를 보면, “각 행에서 바깥쪽 도형은 동일한 패턴을 유지하지만, 안쪽 도형은 예측 가능한 패턴으로 변하는 것”을 묻는다. 반대로 가장 어려운 문제에선 그록-4 전문가 모드와 챗GPT 5 Pro가 완벽하게 맞혔다.
노르웨이 멘사 테스트는 공개되어 있으며, 약간의 허점이 있다. 이를 근거로 열심히 찾아보면 온라인에서 해당 문제의 답을 찾을 수 있다. 또한 AI 학습 데이터에 어떤 형태로든 문제가 포함되어 있을 수도 있다. 그 때문에 상위권 AI들이 ‘멘사’ 테스트에서 150점 만점에 가까운 최고 점수를 받는 것으로 짐작된다. 반면에 사전에 문제가 철저히 베일에 가려진 탓에 ‘오프라인’ 퀴즈에서는 130점 이하의 점수를 받는 것으로 추측된다.
AI는 ‘시각’적 IQ 테스트에서도 발전하고 있다. 2024년 2월에 AI IQ 테스트를 시작했을 때는 이미지만 제공했다. 그 당시 선두를 달리던 AI조차 수준 미달이었기 때문다. 역시 결과는 IQ 점수가 60점대로 나왔다. 하지만 약 1년 전부터 AI는 ‘그림’을 보는 능력이 크게 향상되었다. 텍스트 설명 없이 이미지 자체만으로 일부 질문에 답할 수 있게 되었다. 즉, ‘시각 모델’이다.
‘오프라인’ 테스트의 경우, 시각적 테스트에서 챗GPT-5 Pro의 성능이 2025년 8월 이후 떨어졌다. 그 원인을 단언할 순 없다. 다만, AI 기업들이 초기엔 대중적으로 깊은 인상을 남기기 위해 총력을 다하다가, 시간이 지나면 모델에 할당하는 컴퓨팅 용량을 줄이는 경향때문으로 짐작되기도 한다. 그 결과 챗GPT Pro의 오프라인 ‘시각 테스트’ 성능(평균 105)은 평균과 거의 동일하게 나왔다.
‘시각’을 기준으로 한 ‘멘사’ 테스트에선 ‘오프라인’보다 점수가 높았다. 상위권 AI들은 이 지표에서 105점에서 112점 사이의 꽤 괜찮은 점수를 받았다. 이는 보통의 미국 대학생의 IQ와 비슷한 수준이다.
반면에 ‘오프라인’ 시각 테스트의 경우, 2025년 4월 이후 발전이 정체되었다. 하지만 이를 선형적으로 처리한 결과, 2024년 5월 이후 매달 평균 2점씩 IQ가 상승했다. “이런 추세를 예상해 볼 때, 상위권 AI들은 약 2년 안에 ‘시각’ 테스트에서 최고점을 받을 것으로 예상된다”고 했다.
‘시각’ 테스트에서도 날로 발전 추세
‘트랙킹 AI’는 “앞서 설명한 非시각 테스트는 AI가 근본적으로 시각적으로 훈련됨으로서 (시각을 겸비한) 추론을 할 수 있음을 보여준다”면서 “그록이 순수 추론 분야에서는 선두를 달리고 있지만, 사실은 ‘맹목적’이라는 점이 특징”이라고 했다. 이에 “그록의 코더들이 아직 시각적 입력에 대한 훈련을 많이 하지 않았기때문일 것”이라고 추측했다.
연구진은 이런 측정 결과를 토대로 “AI를 직접 사용해 본 결과, 테스트로 측정한 AI와, 실제 문제에서 AI가 보인 성과 사이에는 강력한 상관관계가 있음을 확인했다”고 밝혔다.
그러면서 “AI는 계속해서 더 똑똑해지고 있으며, 그 속도도 관리 가능하고 선형적인 수준”이라며 “AI 분야에 대한 투자가 과도할 수도 있고 그렇지 않을 수도 있지만, 현재의 측정 지표에 의하면 앞으로 더 발전할 것으로 예상한다”고 결론지었다.
특히 ‘맥시멈 트루스’는 “이번 측정 데이터에 따르면, AI는 2027년 말에 인간의 IQ 검사에서 최고점을 찍을 것으로 예상된다”면서도 “앞으로 2년 간 AI가 인간을 대체하기보다는 보완하는 역할을 하며, AI가 인간의 IQ 테스트를 뛰어넘는다 하더라도 인간과 같은 존재가 되기까지는 많은 난관에 부딪힐 것”이라고 요약했다.