‘제미니 3’ vs ‘GPT-5.1’을 비교해보니…

제미니 3, ‘다중 모달 및 장문 맥락 기능, 고차원 추론 등’ 탁월
’GPT-5.1, ‘대화 품질과 안정성, 텍스트 생성과 수행’ 우수
비교사이트에선 제미니 3 두드러져, 전체적으로 ‘제미니 3’ 판정승?

[애플경제 이윤순 기자] 세계 최고의 AI기업들이 거의 동시에 최첨단 AI 모델을 공개했다. 구글이 제미니3을 출시한데 이어, 다음 날 바로 오픈AI가 GPT-5.1의 새로운 버전을 출시했다. 그러면 두 모델은 어떻게 비교될까?

각자 자신의 제품을 극찬하며 홍보하느라 바쁘다. 구글은 제미니3을 “지금까지 가장 지능적인 모델”이라고 부르는가 하면, 오픈AI는 GPT-5.1을 “더 똑똑하고, 한층 대화형인 모델”이라고 홍보한다.

단순 업그레이드 뛰어넘는 신개념 후속작들

Gemini 3와 GPT-5.1은 단순한 업그레이드라기보다는 새로운 개념의 후속작처럼 느껴진다는게 다수 기술매체들의 평가다. ‘매셔블’의 부편집장 챈스 타운센드는 “구글은 제미니 3 모델이 제미니 2와 2.5의 에이전트 중심 멀티모달 아이디어를 기반으로 한 것”이라며 “추론이나, 장기 컨텍스트 멀티모달 작업 처리, 그리고 미래 계획에 더 나은 단일 모델로 통합했다”고 밝혔다. 그러면서 “또한, 이 모델은 구글의 새로운 앤티그래비티(Antigravity) 개발자 플랫폼과, 어려운 문제를 위한 ‘딥 싱크’ 모드와 같은 기능을 지원한다”고 소개했다.

이에 비해 ‘GPT-5.1’은 GPT-5의 기본적인 지능은 그대로 유지하면서도 훨씬 더 직접적이고 즐겁게 대화할 수 있도록 했다는 평가다. ‘인스턴트’(Instant)와 ‘싱킹’(Thinking)은 모두 질문에 따라 ‘생각하는’ 정도를 조절한다. 즉, 지시를 더욱 일관되게 따르고, 모든 채팅에서 원하는 톤과 개성을 정확하게 표현할 수 있도록 한다.

두 모델의 주요 특징과 가격

제미니 3는 다중 모달 및 장문 맥락 기능 측면에서 확실히 두드러져 보인다. 구글에 따르면, 제미니 3는 수십만 개의 토큰에 달하는 방대한 맥락을 지원한다. 이미지, 텍스트, 코드를 매끄럽게 전환하며, 다양한 도메인에 걸친 고차원 추론 및 계획을 위한 ‘딥 싱크’ 모드를 도입했다.

이에 비해, GPT-5.1은 대화 품질과 안정성에 더욱 중점을 둔다. 순수 텍스트 생성과 지시 수행에서 뛰어난 성능을 보여준다. 이를 위해 어조(억양과 엑센트) 조정이나 미세한 개성 조정 기능이 내장되어 있다. 그러나 기술 리뷰 사이트 ‘톰스 가이드’에서 실시한 테스트 결과, 모달리티나 장문 추론 측면에서 ‘제미니 3’를 따라잡지는 못하는 것으로 나타났다.

GPT-5.1은 또한 채팅 기반 입력이나, 짧은 맥락의 강력한 일관성 유지, 톤, 스타일, 페르소나를 제어하는 정교한 인터페이스 등이 특징이다. 그 덕분에 글쓰기, Q&A, 그리고 대화형 지원에 적합하다.

반면, 제미니 3는 다중 모드 입력, 복잡한 계획, 긴 맥락을 포함한 큰 규모의 작업에 맞춰 확장 가능하도록 설계되었다. 이를 통해 다단계 워크플로, 시각 자료와 텍스트 결합, 또는 고도로 기술적인 결과물 생성 능력이 탁월하다는 평가다.

가격 측면에서 두 모델은 서로 다른 가격대다. 오픈AI의 GPT‑5.1은 입력 토큰 100만 개당 약 1.25달러, 출력 토큰 100만 개당 약 10.00달러의 API 가격을 제공한다.

이에 비해 제미니3 Pro는 토큰 기반 요금제를 적용한다. 최대 약 20만 개의 토큰을 포함하는 컨텍스트의 경우 토큰 100만 개당 약 2.00달러의 입력 요금과 12.00달러의 출력 요금을 책정하고 있다. 그보다 훨씬 큰 컨텍스트의 경우 각각 약 4.00달러와 18.00달러의 요금을 적용한다.

구독료의 경우 제미니3은 매월 약 19.99달러의 Pro 요금제와 맞춤 요금제가 적용되는 울트라/엔터프라이즈 요금제가 있다. 모든 기능의 경우 월 최대 250달러로 알려졌다. 이에 비해 GPT-5.1은 워크플로우 요구 사항에 따라 월 약 20달러 이상으로 비슷한 수준이다.

비교사이트, 벤치마크에서 ‘제미니 3’ 우수

최신 모델 비교 사이트 ‘LMArena’ 순위에 따르면 제미니 3는 1,324점으로 최상위권을 차지했다. 수천 표의 득표율을 올리며, 가장 많은 사용자들의 지지를 받고 있다. 단순히 경쟁 모델들을 앞지르는데 그치지 않는다. 2위를 차지한 Gemini 2.5 Pro가 1,249점을 기록, 제미니 3와 큰 격차를 보였다.

GPT-5-chat으로 표시된 GPT-5.1은 1,222점에 그쳤다. 비록 상위권에 속하긴 하지만 제미니 3에겐 크게 못미치고 있다. 눈길을 끄는 것은 GPT-5.1이 전체 순위에서 어떤 위치에 있는가 하는 것이다. GPT-5.1은 o3, 클로드 Opus 등 이전 세대 GPT 모델들과 어깨를 나란히 하고 있는데, 이들 모두 1,200점대 초반에 밀집되어 있다.

이에 비해 제미니 3는 이런 순위에서 완전히 벗어난 유일한 모델이다. ‘LMArena’ 투표자들의 반응은 매우 명확하다. 제미니 3는 현재로선 모든 AI모델 가운데 가장 강력한 존재다. GPT-5.1도 호평과 호응을 얻고 있지만, 제미니 3만큼 독보적인 우위를 보이진 못하고 있다.

이윤순 기자 iys515@naver.com

다른기사 보기

상단영역

본문영역