‘환각률’ 가장 낮은 AI 모델, 가장 높은 모델?
주요 파운데이션 모델 대상 ‘환각률’ 측정 도구 일상화 최근 ‘벡타라’ 조사에선 오픈AI가 가장 낮고 정확도 높아 ‘환각 평가 모델’ 적용, 제미니·클로드·메타·그록4 등 측정 GPT vs 제미니 ‘미미한 차이’, 그록4 ‘가장 부정확, 위험하기도’
[애플경제 이윤순 기자] 주요 파운데이션 AI모델 중에서 그나마 가장 환각(Hallucination)이 적고, 정확한 모델은 어느것일까. 측정 방식과 주체에 따라 다를 수 있다. 다만 최근의 한 조사에 따르면 오픈AI의 최신 GPT 모델들이 비교적 정확한 것으로 나타났다. 이는 구글 제미니, 앤스로픽 클로드, xAI, 메타 등 경쟁 모델을 제쳤다.
기업용 AI에이전트와 AI어시스턴트 전문인 벡타라(Vectara)의 자체 조사, 분석에 따르면 사실을 정확하게 전달하는 측면에서 오픈AI가 가장 우수한 것으로 드러났다. 정확도는 특히 AI 모델이 세부 정보를 조작하는 빈도, 즉 ‘환각률’에서 극명한 차이를 보여주고 있다.
이번 평가, “절대적인 건 아냐”
물론 이번 조사, 분석이 절대적인 것은 결코 아니다. 앞서 스탠포드 등 학계나 ‘월스트리트저널’ 등의 조사에 의하면 다양한 기능별로 클로드, 퍼플렉시티 등이 오픈AI보다 우수한 경우도 많았다. 그런 점에서 이번 ‘벡타라’의 조사 결과는 단지 참고 수준으로 여길 수도 있다.
‘벡타라’사는 이번 조사에서 자사가 이전부터 운영하던 ‘휴즈 환각 평가 모델’(HHEM)을 적용했다. 이는 주요 대규모 언어 모델에서 ‘환각을 유발하는 요약의 비율’을 측정한다. 이를 통해 직접 비교한 결과, 챗GPT 모델은 제미니, 클로드, 그록, 메타AI를 정확도면에서 능가한 것으로 평가되었다.
‘벡타라’의 ‘HHEM’은 AI 모델이 실제 뉴스 기사를 요약할 때 사실에 부합하는지 확인하기 위해 설계된 대규모 테스트를 기반으로 한다. 각 AI 모델에 동일한 짧은 문서 세트를 제공하고, 요약한 내용에 ‘원본 텍스트에서 찾을 수 없는 정보’가 얼마나 자주 포함되었는지에 따라 점수를 매겼다.
또한 AI 모델이 답변을 거부하는 빈도도 추적했다. 모든 조건을 동일하게 유지한 상태에서, 이 결과는 어떤 AI 도구가 동일한 압박이 가해졌다면, 그 속에서 진실을 가장 잘 처리하는지 보여준다.
▲오픈AI=오픈A는 환각률이 가장 낮은 5개 모델을 보유하고 있다. 챗-o3 mini는 0.795%로 가장 낮았고, 그 뒤를 이어 챗GPT-4.5, 챗GPT-5, 챗GPT-o1 mini, 그리고 챗GPT-4o가 1.2%에서 1.49% 사이를 기록했다.
최근 오픈AI는 기존 모델과는 또 다른 챗GPT-5를 도입했다. 그러나 사용자들은 이에 불만을 표하며, 챗GPT-4o의 부활을 요구하며 반발했다. CEO 샘 앨트먼은 결국 ‘플러스’ 모델 구독자들에게 원하는 모델을 선택할 수 있도록 허용했다.
그럼에도 여기에는 단점이 있다는 지적이다. 무료 사용자가 GPT-5 사용량 한도에 도달하면 챗GPT-5 mini로 전환되어 정확도가 급격히 떨어지고 환각률은 4.9%로 올라간다. 이는 오픈AI 라인업 중 가장 높은 수준이다. 그 바람에 사용자가 얻는 답변에 대한 신뢰도가 급격히 하락함을 의미할 수도 있다.
▲구글=구글의 제미니 2.5 Pro 프리뷰와, 제미니 2.5 플래시 라이트는 각각 2.6%와 2.9%의 점수를 기록했다. 오픈AI의 모델들보다는 높은 수치이지만, 위험도가 가장 높은 다른 경쟁모델들과는 큰 차이를 보였다. 특히 제미니 2.5 Pro 프리뷰가 대체한 Pro 익스페리멘털 모델은 한때 1.1%로 오픈AI의 챗GPT-o3 mini를 제외한 다른 GPT모델들보다 환각률이 낮았다.
▲앤스로픽=앤스로픽의 최신 모델인 ‘클로드 오퍼스 4.1’과, ‘클로드 소넷 4’의 환각 발생률은 각각 4.2%와 4.5%로 나타났다. 두 모델 모두 오류 발생률이 높은 모델 중 하나라고 할 수 있다. 특히 챗GPT나 구글 제미니 등과 같은 선두 모델에 비해 훨씬 뒤처진 편이다.
▲메타=메타의 라마(LLaMA) 4 매브릭(Maverick)과 라마 4 스카웃은 각각 4.6%와 4.7%의 환각률을 기록했다. 이는 클로드의 최신 모델들과 비슷한 수준이다. 이들은 일단 가장 정확한 결과로 평가되는 모델 그룹에서는 제외되었다.
▲xAI=xAI의 ‘Grok 4’는 무려 4.8%의 높은 환각률을 기록했다. 비교 대상이 된 주요 파운데이션 모델 가운데 가장 부정확한 응답을 내놓을 확률이 큰 모델이라고 할 수 있다. 앞서 일론 머스크는 새롭게 출시된 해당 모델을 두고 “모든 분야에서 거의 모든 대학원생보다 더 똑똑하다”고 홍보했지만, 설득력이 없는 얘기가 된 셈이다.
심지어는 Grok 4는 “유해하고 부적절한 출력”을 내놓곤 해 비판을 많이 받고 있다. 높은 오류율과 지속적인 콘텐츠 문제가 결합되면서, 이처럼 사실과는 다른 답변이나 위험한 내용을 제시하곤 하는 것이다.
자칫 AI가 틀린 대답을 내놓았음에도 불구하고, 때론 그럴듯하게 들릴 수도 있다. 그러나 이런 조작된 세부 정보가 사실을 왜곡하고 잘못된 정보를 퍼뜨리면 큰 문제가 된다. 보건, 법률, 금융, 정치 등의 분야에서 심각한 위험으로 이어질 수 있다. 그렇기 때문에 지속적이고 투명한 테스트가 그 어느 때보다 중요하다는 지적이다.
이런 조사 결과를 도출한 ‘벡타라’사의 평가 도구인 ‘HHEM’ 리더보드는 모델이 변경될 때마다 업데이트, 적용되는 것으로 알려졌다. 어떤 AI가 성능을 개선했는지, 어떤 AI가 뒤처지는지를 실시간으로 추적한다.
최근엔 이러한 측정 시스템이 검색과 메시징, 그리고 일상 도구에 더욱 깊이 스며들고 있다. 그 결과 어떤 AI 모델이 진실에 가장 가까운지를 좀더 정확히 판별할 수 있게 된 것이다.