쏟아지는 고성능 AI…‘무늬’만의 신기술 많아

옛 버전보다 퇴보한 경우 흔해, 진정한 ‘프런티어 AI’ 요원 오픈AI가 “최고의 스마트한 모델” 자찬한 ‘o3’도 문제점 많아 전문가 일각, “수학적 오류와 속임수, 환각, o1보다 더 심해” “진정한 ‘진전’ 없인 AGI 등 AI 기술 목표지점도 불투명”

2025-04-24     전윤미 기자
(출처=게티 이미지)

[애플경제 전윤미 기자] 자고나면 거의 매일 또는 매주 최첨단을 자처하는 고급AI(Advanced AI)들이 앞다퉈 개발, 출식되고 있다. 그러나 전문가 일각에선 “그럴수록 (기술의 지향점 등이) 불확실하며, 성능도 뒤죽박죽 혼란스럽다”는 지적도 적지않다.

신모델 ‘극찬’ 이면, ‘흠결, 단점’ 가려져

대표적으로 오픈AI는 매주 혹은 매월 최신 모델들을 쏟아내고 있다. 그럴 때마다 (정밀한 검증이 뒷받침되지 않은채) 극찬이 쏟아지고 있다. 이에 모델들의 성능이나 특성이 불규칙하다는 지적이다. 일부 출시 모델은 기존 성능을 뛰어넘지만, 어떤 경우는 오히려 예전보다 못한 모델들도 있다.

그렇다보니 AI가 추구하는 최첨단의 경지가 언제 어떻게 달성될지 불투명하다는 비판도 따른다. 엑시오스는 “대표적으로 최고급 ‘프런티어 AI 모델’은 끊임없이 새로운 영역을 개척하고 있지만, 챗GPT가 기술 시장을 휩쓴 지 2년 반이 지나도록 그 발전 속도는 과학적으로나 예측 가능할 만큼 변한 것이 없다”고 꼬집었다.

실제로 가장 최근에 출시, 최첨단의 모델로 꼽히는 ‘o3’의 경우도 마찬가지다. 오픈AI는 일주일 전 o3와, 그 보다 작은 o4-mini 모델을 출시하며 “지금까지 출시된 모델 중 가장 스마트한 모델”이라고 자찬했다. 오픈AI와 초기 테스터들은 o3의 전반적인 추론 능력, 즉 사용자의 요청에 따라 일련의 단계를 계획하고, 실행, 설명하는 능력을 칭찬했다.

(출처=엑시오스)

또한 사용자의 지속적인 감독이나 개입 없이 웹 검색이나 각종 디지털 도구를 사용하는 능력도 뛰어나다고 칭송했다.

o3는 특히 글쓰기, 그림 그리기, 계산, 코딩과 같은 기본적인 AI 작업뿐 아니라, 시각 기능이 뛰어나다고 해서 리뷰어들로부터 찬사를 받았다. 특히 개인정보 보호 위험이 따름에도 불구하고, 널리 알려진 기술 중 하나는 o3를 사용해 거의 모든 디지털 사진을 보고 사진 속 장소나 배경, 심지어 주소까지 알아내는 능력이다.

오픈AI의 개발자 시몬 윌리슨은 ‘테크크런치’와의 인터뷰에서 “이 모델들은 최종 답을 도출하기 전에 연쇄 추론과 사고 과정을 거쳐 검색할 수 있다. 이는 엄청난 발전이다”라고 밝혔다. 심지어 경제학자이자 블로거인 타일러 코웬은 ‘워싱턴포스트(WP)’를 통해 “o3가 AGI(‘일반인공지능’ AGI가 아닌, 미국형 인공지능기술(America Intelligence Technology))의 전성기를 예고했다”고 주장하기까지 했다.

리뷰어 등 “o3를 비판받을 이유 너무 많아”

그럼에도 불구하고, 많은 리뷰어들은 “o3를 비판할 이유”를 찾았다. 그 중엔 수학적 오류와 속임수, 환각 등이 포함된다. WP가 조사한 바에 의하면, 예컨대, ‘재무 분석’ 성능 부문에서 o3는 최상위권에 올랐지만, ‘정확한 결과’를 제공하는 비율은 48.3%에 불과했다. 또한 쿼리당 비용은 3.69달러로 가장 비싼 편이었다.

그래서 o3의 인상적인 성능 개선에도 불구하고 일부 영역에선 오히려 퇴보하고 있다는 지적이다. 예를 들어 ‘환각’이나 오답을 만들어내는 사례가 그런 경우다. 특히 ‘정확도’ 측정을 위한 벤치마크 테스트에서 오픈AI는 o3가 이전 모델인 o1보다 2배 이상 높은 환각률을 보인다는 점을 발견했다.

물론 o3는 o1보다 더 많은 질문에 답하고 더 많은 정답을 맞히다보니 그럴 수도 있다. 그럼에도 불구, 오픈AI 스스로 “o3의 오류 비율이 급증한 이유를 이해하기 위해 더 많은 연구가 필요하다”고 자인하기도 한다.

(출처=오픈AI)

AI 분석가들은 이에 “o3의 성능은 인상적이지만 발전과 퇴보가 뒤섞인 ‘산만한 성과’를 보이고 있다”며 “어떤 작업에서는 기본적인 신뢰조차 할 수 없고, 다른 작업에서는 초인적”이라고 했다. 또 다른 애널리스트는 “최신 모델은 AGI라고 부르든 아니든, 이전 모델과는 질적으로 다른 무언가를 나타낸다. 들쭉날쭉한 성능을 갖춘 에이전트 속성이 전과는 비슷한 점이 거의 없어보이는 그럴듯한 (고성능이 개발된 듯한) 상황을 만들어내곤 하는 것”이라고 파악했다.

결론적으로 많은 전문가들은 “아직은 AI는 더 새롭고, 낯설며, 아직 예측 가능한 분야로 발전하기에는 충분히 성숙되지 않았다”고 단언한다. 즉, AI 모델을 설계, 구축 및 훈련하는 과정에서 개발자들은 이에 대한 과학적 엄격성이 적용되고 검증하는데 대해 거부감을 갖고 있다. “이는 AI 개발을 둘러싼 미스터리와 (발전) 가능성에 대한 기대를 키우긴 하지만, AI를 발전시키는데 걸림돌이 되고 있다”는 지적이다.