“AI 평가 벤치마크, ‘부정확·단편적’ 등 문제 많아”

차라리 신입사원 채용처럼 AI를 ‘심층 면접’할 필요 벤치마크에서 높은 점수를 받기 위해 이를 기본 훈련 과정에서 학습 테스트 문제에 오류가 많고 측정값이 특이한 방식으로 도출되는 경우가 많다. AI를 평가하는 능력을 향상, 오픈AI ‘GDPval 논문’, 우수 벤치마키로 꼽혀

2025-11-12     전윤미 기자
AI 벤치마크 다수가 부정확하거나, 불투명한 테스트 방식을 쓰고 있다는 지적이다. (이미지=펙셀)

[애플경제 전윤미 기자] 개인은 물론, 웬만한 기업들도 이제 사내 업무나 작업, 제조 공정 등에 AI를 투입하고 있다. 기업들 나름대로 특정 AI 도입 여부를 결정하는 과정에선 특히 다양한 벤치마크를 활용하기도 한다. 그러나 이런 벤치마크 역시 그 기능을 완전히 신뢰할 수 없다는 평가도 많다. 이에 “아예 신입사원 채용할 때처럼 AI 역시 기업 스스로가 다양한 각도에서 차분히 ‘면접’을 볼 필요가 있다”는 얘기도 나오고 있다.

사실 엄청난 에너지와 자료가 투입된 AI를 두고 “얼마나 똑똑한지”를 정확히 측정하는 것은 어려울 수 밖에 없다. 그래서 가장 일반적인 테스트 방식은 ‘AI를 사람처럼 취급하여 테스트’하고 정답의 확률과 갯수를 평가하는 것이다. 현재 이런 ‘벤치마크’는 수를 헤아리기 어려울 정도다.

‘AI의 똑똑함’ 정확한 평가, “애초 쉬운 일 아냐”

그러나 그간의 각종 벤치마크, 특히 ‘트래킹 AI’, ‘맥시멈 트루스’ 등 AI테스트와 순위 분석 사이트가 근거로 삼은 각종 벤치마크들은 문제점이 적지 않음을 보여주고 있다. 이들이 매긴 순위나 테스트 내용은 상당수가 일관성이나, 적절성, 정확성 등이 떨어진다는 지적도 진작부터 나오고 있다.

우선 많은 벤치마크와 정답지가 공개되어 있기 때문에 일부 AI는 우연이든, 아니면 벤치마크에서 높은 점수를 받기 위해 이를 기본 훈련 과정에서 학습한다. 또 테스트 자체가 실제로 무엇을 측정하는지 알지 못하는 경우도 많다.

예를 들어, 매우 인기 있는 ‘MMLU-Pro 벤치마크’에는 “호모 에렉투스의 평균 두개골 용적은 얼마인가?”나, “록 레전드 치프 트릭의 1979년 라이브 앨범 제목에 어떤 장소가 언급되었는가?”와 같은 질문이 포함되어 있다. 각 질문에 최대 10개까지 답할 수 있게 했다.

그러나 과연 이런 질문과, 이에 대한 정답은 AI의 어떤 측면을 측정하기 위한 것일까. 이에 대한 의구심과 의문이 들게 한다. 또한 많은 테스트 문제에 오류가 많고 측정값이 특이한 방식으로 도출되는 경우가 많다.

모든 벤치마크에는 다양한 결함이 있지만, 그 양상은 비슷하다. 예를 들어 AIME는 어려운 수학 시험이고, GPQA는 과학 및 법률 지식 테스트, MMLU는 일반 상식 시험, SWE-bench와 LiveBench는 코딩, Terminal-Bench는 에이전트 능력을 각각 시험한다.

이런 문제에도 불구하고, 대부분의 벤치마크는 몇 가지 근본적인 능력 요인만 측정하는 것으로 보인다. ARC-AGI나, METR Long Tasks와 같은 고품질 벤치마크도 마찬가지다. 이런 추세는 갈수록 증가하고 있다.

심지어 소수의 강력한 개별 벤치마크들도 주로 수학, 과학, 추론 및 코딩에 중점을 둔다. 반면에 글쓰기 능력이나, 사회학·인문학적 분석, 비즈니스 조언 또는 공감 능력을 측정하려는 경우 (이에 적합한 벤치마크의) 선택지가 매우 제한적이다. 이는 개인과 기업 모두에게 문제가 아닐 수 없다.

흔히 기업으로선 이런 벤치마크를 기반으로 어떤 AI를 사용할지 결정한다. 새로운 AI는 벤치마크 성능에 대한 대대적인 홍보와 함께 출시된다. 그러나 실제로 중요한 것은 어떤 모델이 자신의 필요에 가장 적합한지, 하는 것이다. 그래서 최근 벤치마크에 대해 비판적 시각을 갖고 있는 전문가들 간엔 “AI와 직접 ‘인터뷰’(면접)를 함으로써 가장 적합한 모델을 찾아야 할 것”이라고 주문하기도 한다.

AI 평가와 측정치를 보여주는 막대그래프. (출처=원 유스풀 씽)

‘바이브 벤치마킹’이 새로운 해법으로 등장하기도

이에 사용자들의 오랜 노하우나 경험을 벤치마크에 녹여냄으로써 정확도를 높이려는 시도도 이어지고 있다.

AI 모델을 다방면으로 많이 사용하다 보면 설명하기는 어렵지만 쉽게 알아볼 수 있는 사용자만의 식별 감각이 생긴다. 이를 벤치마크에 주입, 각 모델 간의 차이를 확인할 수 있다. 이에 AI를 많이 사용하는 사람들은 AI의 능력을 테스트하기 위해 자신들만의 독특한 벤치마크를 개발하기도 한다.

예를 들어, 모델에게 “자전거를 탄 펠리컨을 그려보라”거나, “비행기를 탄 수달을 그려보라”는 지시를 할 수도 있다. 이는 즉 세상의 사물이 서로 어떻게 연관되어 있는지, 즉 ‘세계 모델’에 대한 AI의 이해를 보여주는 것이다.

AI 혁신을 내건 커뮤니티 ‘원 유스풀 씽’을 운영하는 이썬 몰릭 미국 펜실베이니아대 와튼스쿨 교수도 이런 비판적 분석을 해온 대표적인 권위자다. 그는 일찍이 “‘먼 미래의 우주선 조종판’을 위한 자바스크립트를 생성하도록” 요청하는 등 자신이 만든 수십 가지의 다른 벤치마크를 갖고 있다

그는 때론 AI에게 ‘어려운 시’를 쓰도록 요청하기도 한다. AI에게 비디오 게임과 셰이더를 만들고 학술 논문을 분석해보라고 지시하기도 한다. 또한 ‘시간 여행’에 대한 질문을 포함한 작은 글쓰기 실험도 시도했다. 이런 실험은 “모델의 작동 방식에 대한 통찰력을 제공한다”는게 그의 분석이다. 즉 “오류가 많이 발생하는가? 이 모델의 답은 다른 모든 모델과 비슷한가? 이 모델이 되돌아보는 주제와 편향은 무엇인가?” 등이다..

이런 실험 결과 ‘클로드 4.5’ 소네트가 강력한 글쓰기 모델로 판명되기도 했다. 반면에 가장 잘 알려진 4가지 AI 모델 중 가장 취약한 ‘제미니 2.5프로’는 사용된 단어 수조차 정확하게 추적하지 못했다. ‘GPT-5 Thinking’은 소설을 쓸 때 복잡한 은유를 사용하는 등 다소 과격한 스타일을 보이는 경향이 나타났다. 때로는 일관성도 없고, 스토리도 빈약한 편이다.

새로운 중국식 오픈 웨이트 모델인 ‘키미 K2 씽킹’(Kimi K2 Thinking)은 문구나 표현은 다소 관심을 끌만했지만, 비상식적이고 이해하기 어려운 스토리를 출력했다.

AI는 매번 다른 답변을 제시하기 때문에, 엄격히 감별하지 않으면 정확히 식별해낼 수 없다. 또한 프롬프트 수준이나 내용이 훌륭하면 더 나은 결과를 가져올 수도 있다. 중요한 것은 사용자들이 실제 측정값보다는 ‘감정’에 의존해 AI를 선택한다는 점이다. 그래서 “표준화된 벤치마크만으로는 충분하지 않다. 특히 특정한 작업에서 조금이라도 더 나은 AI를 확보해야 할 때는 더욱 그렇다”는 지적이다.

회사에 적합한 선택 위해 ‘엄격한 면접’ 필요

이에 “단순히 회사에 맞는 모델을 선택하는 것이 아니라 엄격한 면접을 진행해야 한다”는 전문가들이 많다. AI 면접 역시 분명 쉽지는 않다. 그럼에도 이를 시도해볼 만한 가치가 있다는 얘기다.

현재 앞서 몰릭 교수와 같은 전문가들이 추천하는 훌륭한 벤치마킹의 사례로 오픈AI의 최근 ‘GDPval 논문’이 꼽힌다. ‘파이토치’ 국내 사용자 커뮤니티는 “이는 경제적 가치를 창출하는 직업군에서 실제로 수행되는 업무를 기준으로 AI 성능을 평가한다.”며 “단순한 텍스트 답변이 아니라 법률 문서, 엔지니어링 도면, 고객 상담 기록, 간호 계획서와 같은 구체적 산출물을 대상으로 모델의 실질적인 기여 가능성을 검증한다.”고 소개했다.

이에 따르면 또 “AI 미래에는 이럴 것”이라고 예상, 추측하는게 아니라, 지금 당장 AI모델이 무엇을 잘할 수 있는가를 실증적으로 보여준다. 그래서 “GDPval은 AI가 사회와 산업에서 차지할 위치를 데이터로 추적하는 첫 시도”라는게 ‘파이토치’ 커뮤니티의 평가다.

AI모델의 IQ 측정 결과를 보여주는 그래프. (출처=맥시멈 트루스)

실제로 오픈AI는 이를 통해 ‘실제 과제’를 설정하는 테스트를 시도했다. 금융, 법률, 소매업 등 다양한 산업 분야에서 평균 14년 경력의 전문가들이 평균 4~7시간 걸리는 복잡하고 현실적인 프로젝트를 생성하도록 했다. 그리고 이들 작업에 대해 AI를 테스트했다.

이 경우 여러 AI 모델과 다른 인간 전문가들이 각자 작업을 수행했다. 그런 다음 전문가 그룹을 통해 어떤 답변이 AI에서 나왔는지, 어떤 답변이 인간에서 나왔는지 구분하지 않고 결과를 평가했다.

하지만 이를 통해 AI의 강과 약점이 드러났다. 또한 모델마다 성능이 다름도 알 수 있게 했다. 예를 들어 챗GPT는 영업 관리자로서 적합했고, 클로드는 재무 설계사 자질이 뛰어났다. 그럼에도 불구하고 “이러한 테스트조차도 AI가 결정을 내릴 때의 ‘어떤 근본적인 태도를 취할 것인가’라는 점은 규명하지 못했다.

결론적으로 필기시험 한 번으로 CEO를 영입하지 않듯이, AI 도입을 위한 벤치마크도 마찬가지다. 예를 들어 “호모 에렉투스의 평균 두개골 용량이 1,000㎤에 약간 못 미친다는 사실을 알고 있는지” 따위를 기준으로 기업의 수천 가지 의사 결정을 내릴 AI를 선택해서는 안 된다는 지적이다. 현재의 수많은 벤치마크들은 그런 점에서 개선과 발전이 필요하다는 것이다.