기술이벤트서 ‘o1’ 보다 진화된 ‘o3’ 모델 공개
정확도·추론 능력 향상, “‘o3 미니’도 선봬, 1월 말 출시”
[애플경제 이지향 기자] 오픈AI가 기술 이벤트 ‘12 Days of OpenAI’에서 ‘o1’ 추론 모델 제품군의 후속 모델인 ‘o3’와 ‘o3-mini’를 발표했다. 샘 앨트먼이 직접 발표한 이들 두 가지 모델은 범용의 초지능을 목표로 한 ‘o1’을 한층 발전시킨 것이다. 아직 널리 공개되지는 않았지만 일부 한정된 대상에 한해 ‘미리보기’로 공개하고 있다.
이들 모델은 실시간 비전 기능과, 챗GPT 검색, 챗GPT의 산타 음성까지 발표한 이 회사의 기술 이벤트 ‘12 Days of OpenAI’의 하이라이트를 장식했다. 현재로선 둘 다 내년 초에 공식 출시될 것으로 알려졌다. 그 전까지 안전성을 확보하기 위한 다양한 검증과 테스트를 거칠 예정이다.
프런티어 AI ‘o3’, 안전테스트 거쳐 출시
외신을 종합하면, 샘 앨트먼 ‘12 Days of OpenAI’ 라이브스트림을 통해 ‘o3’로 이름 붙인 이유를 설명해 눈길을 끌었다. 그는 “유럽의 O2 모바일 네트워크 소유자인 ‘텔레포니카’ 사용자들에 대한 존경심과, 본사는 ‘이름 붙이기’엔 본래 역부족인 점을 감안해 ‘o3’라고 부르기로 했다”고 밝혔다.
앨트먼은 이날 ‘o3-mini’도 발표했다. 그는 “1월 말경에 해당 모델을 출시할 계획이며, 그 직후 o3 출시가 뒤따를 것”이라고 했다. 이는 최첨단 차세대 프런티어AI 모델인 만큼 그 위험성도 크다. 그런 만큼 사전 안전 시험 과정도 철저를 기하겠다는 각오다.
현재까지 알려지기론 분명 ‘o3’는 이전 모델인 ‘o1’보다는 정확도 등 성능이 향상되었다. 전미 수학경시대회에서 ‘o3’는 96.7%의 정확도 점수를 달성했다. 반면 ‘o1’은 83.3%의 더 낮은 평가를 받았다. 이에 대해 오픈AI는 “이는 ‘o3’가 한 문제 정도만 놓치고 정답을 모두 맞힌다는 것을 의미한다”고 소개했다. ‘o3’는 오픈AI가 모델을 적용하는 보통의 벤치마크에서 매우 좋은 성과를 거두었기 때문에 더 까다로운 테스트를 위한 벤치마크를 찾아야 했다는 설명이다.
그 중 하나는 ARC-AGI다. 이는 AI 알고리즘이 그 자리에서 직관하고 학습하는 능력을 테스트하는 벤치마크다. 범용 일반지능을 겨냥한 것이다. 해당 실험 모델을 만든 비영리 단체 ARC Prize에 따르면, “ARC-AGI를 성공적으로 이길 수 있는 AI 시스템은 범용 일반 지능에 한 걸음 다가갈 수 있음을 보여주는 중요한 신호”라고 의미를 매겼다.
최고급 벤치마크 ARC-AGI 테스트, “사람보다 처리능력 높아”
지난 2019년에 처음 선보인 이후로 어떤 AI 모델도 ARC-AGI를 이긴 적이 없다. 해당 테스트는 대부분 사람이 직관적으로 알아낼 수 있는 입출력 문제로 구성되어 있다. 예를 들어, “위의 예에서 정답을 골라 진한 파란색 블록을 사용하여 네 개의 폴리오미노로 사각형을 만들어라”는 식의 문제를 제시한다.
이 테스트의 ‘저연산’ 설정에서 ‘o3’는 75.7%를 기록했다. 또한 추가 처리 능력 면에서 이 모델은 87.5%의 평가를 받았다. ‘ARC Prize’ 측은 이에 대해 “사람들은 보통 85%에 달하는 점을 감안하면, 그 보다 높은 평가를 받았다는 면에서 이는 (범용 일반지능의 가능성을 보여준) 중요한 이정표”라고 밝혔다.
오픈AI는 또한 ‘o3-mini’를 선보였다. 이 모델은 오픈AI가 최근 공개한 ‘Adaptive Thinking Time API’를 사용한 것이다. 이를 통해 3가지 추론 단계, 즉 낮음, 중간, 높음의 추론 모드를 적용했다. 이를 통해 사용자는 소프트웨어가 답변을 제공하기 전에 문제에 대해 ‘생각’하는 시간을 조정할 수 있다.
‘o3-mini’는 기존 ‘o1’ 추론 모델과 비슷한 성능이지만, 비용 등 가성비는 훨씬 낫다는 오픈AI의 설며이다. ‘o3-mini’는 ‘o3’보다 먼저 대중에게 공개될 예정이다.
