AI 감지 모델 ‘링스’…AI의 환각 포착, 오류 원인까지 설명

AI모델의 '환각'을 포착, 그 원인까지 설명해주는 AI모델이 나왔다.(사진=셔터스톡)
AI모델의 '환각'을 포착, 그 원인까지 설명해주는 AI모델이 나왔다.(사진=셔터스톡)

[애플경제 이보영 기자] 생성AI 기반의 챗봇 등의 가장 큰 문제점은 이른바 ‘환각’(halluciation)이다. 최근엔 많이 개선되었다곤 하지만, 아직도 프롬프트를 통해 “하루에 다섯 번 돌을 먹거나, 피자에 접착제를 추가하라”는 등의 환각(또는 실수)를 ‘자신있게’, 때로는 ‘설득력 있게’ 설파하는 경우가 드물지 않다.

이에 최근엔 AI모델에서 이런 환각을 포착해, 시정하고 오류의 원인까지 짚어내는 필터링 AI모델이 개발되었다. 메타의 전 AI연구원들이 설립한 스타트업인 ‘패트로너스AI’가 개발한 AI 모델 ‘링스’(Lynx)는 다른 AI 모델에서 환각을 포착하는 기능을 전문으로 한다.

‘포브스’에 따르면 소위 ‘AI 평가 회사’를 자처한 이 회사는 자사의 새로운 모델인 ‘링스’가 대규모 언어 모델에서 생성된 환각을 포착할 수 있을 뿐만 아니라, 그 모델이 틀린 이유도 잡아내어 설명할 수 있다고 주장한다. 공동창업자인 아난다 칸나판과 메타AI 연구원 출신인 레베카 칸은 애초 “AI 모델에서 생성된 사실적 부정확성과, 유해 콘텐츠를 탐지하는 자동화를 개발하기 위해 회사를 설립했다”고 공언한 바 있다.

그 말처럼 이들은 “사실적 부정확성을 탐지하는 기능에 있어선, 오픈AI의 GPT 모델이나 앤트로픽의 클로드3 모델과 같은 주요 AI시스템보다 더 정확하다”고 주장하기도 한다. 그런 수준의 성능에 도달하기 위해 메타의 최첨단 LLM인 ‘라마3(Llama3)’에 2400가지 ‘환각’ 사례와 그에 따른 정답을 적용하는 등의 방법으로 미세 조정했다.

두 사람은 “메타를 그만두기 전 회사 임원 약 60명과 대화를 나눠본 결과 ‘AI 제품을 출시한후 오류나 환각과 같은 일로 인해 언론의 헤드라인을 장식하는 것이 가장 두려운 일’로 여긴다는 점을 발견했다”면서 “이번에 개발한 ‘링스’가 그런 우려를 해소하는 데 도움이 되기를 바란다”고 개발 취지를 강조했다.

이들은 이를 다른 AI 모델이 더 정확하도록 안내할 수 있는 ‘코치’라고 주장하기도 했다. AI 애플리케이션을 출시하기 전 ‘링스’를 통해 환각 현상을 찾아낼 수 있다는 얘기다. 그래서 “이미 출시된 후 실수를 수정하는 일을 방지할 수 있다”는 것이다. 즉, 인간이 할 수 없는 ‘AI에 대한 감독’을 평가하기 위한 ‘강력한 AI’를 개발한 셈이다.

이는 또 AI 제품이 배송되기 전에 다양한 기술을 포함, ‘스트레스 테스트’를 거치는 현재의 방식과도 다르다. 기존 ‘스트레스 테스트’는 실수로 이어질 수 있는 취약점을 노출하기 위해 별도의 ‘레드팀’이 AI 모델을 수동으로 해킹하는 식이다. 이 경우 다른 개발팀은 환각을 포착하기 위해, GPT-4와 같은 AI 모델을 사용한다. 그러나 이는 “말 그대로 GPT-4가 GPT-4 자체를 평가하는 것”이라고 비판했다.

GPT-4와 같은 범용 모델은 오류를 포착하도록 특별히 설계되지 않았기 때문에 문제가 된다는 것이다. 마치 ‘눈 먼 자가 눈 먼자를 인도하는 식’에 비유할 수 있다.

반면에 ‘링스’는 풍부한 전후 맥락을 제공하면서, 답변이 잘못된 이유를 추론하는 방법을 학습했다는 설명이다.

이들에 의하면 또 구체적인 재무 계산이나 의료 현장의 진료기록 등을 통해 잘못된 답변의 사례를 제공하고, 응답이 잘못된 이유를 보여주는 방식을 구사했다. 유사한 실수를 더 잘 포착할 수 있도록 모델에 배경이 되는 추가정보가 제공되므로 더 효과적이란 주장이다.

이 회사는 또한 다양한 AI 모델이 법률, 금융, 의료 영역 전반에 걸친 모델의 ​​환각을 얼마나 잘 포착할 수 있는지 ‘평가’하는 ‘할루벤치(HaluBench)’라는 벤치마크를 출시했다. 이 벤치마크의 평가 결과 ‘링스’도 비록 완벽하지는 않지만, 약 88%의 정확도를 기록한 것으로 나타났다. 또한 다른 대부분의 제품보다 뛰어난 성능을 보인 것으로 나타났다.

앞서 지난 3월에 이 회사는 오픈AI의 GPT-4, 앤트로픽의 클로드 2, 미스트랄AI의 믹스트랄과 같은 인기 AI모델의 콘텐츠에 대해 저작권 보호와 충돌하는지 여부를 식별하는 ‘카피라이트 캐처(Copyright Catcher)’라는 AI도구도 출시했다.

또한 이 회사는 특정 영역에서 모델 성능을 평가하는 다른 도구도 개발했다. 예를 들어, 다양한 LLM이 금융 쿼리에 얼마나 잘 응답하는지 평가하는 데 사용되는 ‘FinanceBench’도 있다. 또 AI 모델이 민감한 기밀 정보를 노출하는지 여부를 감지하는 데 도움이 되는 ‘Enterprise PII’, 아동 학대나 사기와 관련된 LLM의 유해한 출력이나 응답을 평가하는 ‘Simple Safety’ 등이 대표적이다.

회사측은 “모든 제품과 프로젝트는 LLM이 사람들이 현혹될 수 있는 나쁜 결과를 낳지 않도록 하는 회사의 설립이념에 기반을 두고 있다”면서 “특히 모델이 환각을 보일 때에도 여전히 그럴듯하게 들리는 출력으로 잘못된 정보를 제공하는 사례를 철저히 방지할 것”이라고 강조했다.

저작권자 © 애플경제 무단전재 및 재배포 금지