“오픈AI 자체 벤치마크 보다 제3의 테스트는 더 낮은 점수”
‘에폭’, ‘ARC Prize’ 등 “‘AI 벤치마크’도 수학 문제 2%만 정답”
전문가들, “AI 벤치마크, 액면 그대로 받아들이지 않는게 바람직”

오픈AI 로고 이미지. (출처=테크크런치)
오픈AI 로고 이미지. (출처=테크크런치)

[애플경제 이지향 기자] 유명 기술매체 ‘테크크런치’가 오픈AI가 그토록 자랑하며 ‘역대급’으로 내세웠던 o3 AI 모델을 정면으로 깎아내리며 저격, 눈길을 끈다. 이 매체는 20일(현지시각) “(o3에 대한) 퍼스트파티 벤치마크 결과와, 서드파티 벤치마크 결과가 서로 다르다”면서 “애초 (퍼스트 파티로서) 오픈AI사의 검증 투명성과 모델 테스트 관행이 의문”이라고 지적했다.

앞서 오픈AI는 지난해 12월 ‘o3’을 공개하며, “이 모델은 까다로운 수학 문제인 ‘프런티어매스’(FrontierMath)에서 문제의 4분의 1 이상에 대해 정답을 맞힐 수 있다”고 주장했다. 이 점수는 경쟁 모델을 압도한 것이다. 그 다음 순위의 또 다른 AI모델은 ‘프런티어 매스’ 문제의 약 2%만 정답을 맞혔다고 했다.

당시 오픈AI의 최고 연구 책임자인 마크 첸은 라이브 스트리밍에서 “현재 시중에 출시된 모든 제품의 ‘프런티어매스’ 정답률은 2% 미만”이라며 “그러나 o3를 공격적인 테스트 시간 컴퓨팅 환경에서 사용하면 25% 이상의 정답률을 달성할 수 있음을 내부적으로 확인했다”고 밝혔다.

그러나 ‘프런티어매스’를 개발한 연구소인 ‘에폭 AI’(Epoch AI)는 ‘o3’에 대한 독립적인 벤치마크 테스트 결과를 발표했다. 이에 따르면 ‘o3’의 점수가 오픈AI가 주장한 최고 점수보다 훨씬 낮은 약 10%라고 밝혔다.

이에 대해 테크크런치는 “오픈AI가 거짓말을 했다는 것을 의미하는 것은 아니다”면서 “지난 12월에 발표된 벤치마크 결과는 ‘에폭’사가 관찰한 점수와 하한선은 동일하다”면서 “테스트 설정이 오픈AI와 다를 가능성이 높으며, 성능 평가에 업데이트된 ‘프런티어매스’ 릴리스를 사용했다”고 밝혔다.

‘에폭’은 “본사의 테스트 결과와 오픈AI와의 차이는 오픈AI가 더 강력한 내부 스캐폴드를 사용하여 평가했거나, 더 많은 테스트 시간(컴퓨팅)을 할애했을 수도 있다”면서 또한 “해당 결과가 ‘프런티어매스’의 다른 하위 집합(frontiermath-2024-11-26의 180개 문제와 frontiermath-2025-02-28-private의 290개 문제)에서 실행되었기 때문일 수 있다”고 밝혔다.

‘o3’의 사전 출시 버전을 테스트한 ‘ARC Prize Foundation’도 X를 통해 “공개된 ‘o3’ 모델은 채팅이나, 제품 사용에 맞춰 조정된 다른 모델”이라고 했다. 이는 ‘에폭’ 보고서와도 같다. ‘ARC Prize’는 또한 “출시된 모든 ‘o3’ 컴퓨팅 티어는 본사가 벤치마킹한 버전보다 규모가 작다.”고 밝혔다. 그래서 일반적으로 컴퓨팅 티어가 클수록 더 나은 벤치마크 점수를 얻을 수 있다는 결론이다.

o3모델을 출시한 오픈AI의 챗GPT 화면. (출처=게티이미지)
o3모델을 출시한 오픈AI의 챗GPT 화면. (출처=게티이미지)

그러나 오픈AI의 기술 담당자인 웬다 저우는 지난주 라이브 스트리밍에서 “프로덕션 단계의 o3가 12월에 데모된 o3 버전보다 ‘실용적 사례에 더 최적화’되었으며, 속도도 더 빠르다”면서 “따라서 벤치마크 ‘격차’가 발생할 수 있다”고 덧붙였다. 그는 “모델의 비용 효율성과 전반적인 유용성을 높이기 위해 최적화 작업을 진행했다.”면서 “이 모델이 훨씬 더 나은 모델이 되기를 바라며, 여전히 그렇게 생각한다. 이러한 유형의 모델에서는 실제로 답변을 요청할 때 오래 기다릴 필요가 없다”고 밝혔다.

물론 ‘o3’의 공개 버전이 오픈AI의 테스트 약속을 충족하지 못한다는 사실은 다소 논쟁의 여지가 있다. 오픈AI의 o3-mini-high 및 o4-mini 모델은 ‘프런티어매스’에서 o3보다 우수한 성능을 보였다. 오픈AI는 또한 향후 몇 주 안에 더 강력한 o3 버전인 o3-pro를 출시할 계획이다.

그러나 “이는 AI 벤치마크를 액면 그대로 받아들이지 않는 것이 좋다는 점을 다시 한번 일깨워준다. 특히 판매할 솔루션을 제공하는 회사일 경우 더욱 그렇다”고 ‘테크크런치’는 밝혔다. 실제로 많은 벤더들은 새로운 모델로 헤드라인을 장식하고, 인지도를 높이려 경쟁하면서 AI 업계에서는 벤치마킹 ‘논란’이 흔해지고 있다.

1월들어 ‘에폭’사는 오픈AI가 ‘o3’를 발표한 후 뒤늦게 자사가 오픈AI로부터 자금을 지원받는다는 사실을 공개, 비판을 받았다.최근에는 또 일론 머스크의 xAI가 최신 AI 모델인 그록3(Grok 3)에 대한 오해의 소지가 있는 벤치마크 차트를 게시했다는 비난을 받았다. 최근엔 또 메타가 개발자에게 공개한 모델과 다른 버전의 벤치마크 점수를 광고한 사실을 인정하기도 했다.

저작권자 © 애플경제 무단전재 및 재배포 금지