GPT-40, 소라, 'DALL-E 텍스트-이미지 모델보다 우수'
구글 '제미니2.5', "응답하기 전 '생각' 하는 모델" 강조
오픈AI vs 구글, 2025년 AI 모델 경쟁 '신호탄' 쏘아올려

오픈AI의 CEO 샘 앨트먼(오른쪽)을 비롯한 기술팀이 GPT-40, 소라의 이미지 생성 기능을 소개하며 라이브스트림을 진행하고 있다. (출처=오픈AI)
오픈AI의 CEO 샘 앨트먼(오른쪽)을 비롯한 기술팀이 GPT-40, 소라의 이미지 생성 기능을 소개하며 라이브스트림을 진행하고 있다. (출처=오픈AI)

[애플경제 이윤순 기자] 오픈AI가 챗GPT와 소라(Sora)의 새로운 이미지 생성 기능을 공개한데 이어, 구글도 추론과 코딩 기능을 겸비한 제미니 2.5를 내놓는 등 2025년 AI시장을 겨냥한 경쟁이 본격 시작되고 있다. 특히 제미니 2.5는 응답을 하기 전 ‘생각’ 기능을 갖고 있다고 해서 관심을 끌기도 한다.

오픈AI, GPT-4o, '소라'

이전에는 오픈AI의 겅우 이미지 생성은 DALL-E 텍스트-이미지 모델에 의존했다. 이젠 GPT-4o가 이미지 생성을 처리, 이미지를 보다 원활하고 대화형으로 생성할 수 있게 되었다. 특히 “모델의 응답은 이미지에 대한 구체적인 설명이나 소개도 없어도 상황에 대한 프롬프트를 이해하고, 생성된 이미지를 반복하기 위한 프롬프트도 납득할 수 있다”는 오픈AI의 설명이다. 또한 “텍스트 렌더링은 훨씬 더 뛰어나다”는 얘기다.

이번 GPT-4o 이미지 생성 기능은 참신하면서도 한층 다양한 기능을 갖췄다고 오픈AI는 강조한다. 즉, 다이어그램, 인포그래픽, 로고, 소셜 미디어 게시물, 기타 그래픽을 생성할 수 있다. 소라(Sora)에는 또 기존 미드저니(Midjourney) 인터페이스와 매우 유사한 이미지(영상 이외에도)를 생성하는 새로운 섹션이 있다.

25일 이들 제품을 발표한 라이브 스트림에서 샘 앨트먼은 “이 모델이 ‘창의적 자유’에 기대고 있다”면서 “모델은 사용자가 원하지 않는 경우 불쾌하지 않고 합리적인 범위 내에서 원하는 것을 만들 수 있도록 한다”고 강조했다.

또한 생성된 모든 이미지에는 C2PA 메타데이터가 있으며, 이미지 출처를 자세히 설명하는 보이지 않는 워터마크를 제공한다. 챗GPT용 기본 이미지 생성은 챗GPT Plus, Pro, Team 및 Free 사용자를 위해 채팅 환경 내에서 제공된다. 산업용과 교육용도 곧 제공된다.

구글 제미니2.5 이미지. (출처=X)
구글 제미니2.5 이미지. (출처=X)

구글, 제미니2.5 출시도 맞대응 

이에 맞서 26일 구글 역시 추론 및 코딩 부문에서 벤치마크 1위로 기록된 제미니 2.5를 출시했다. 제미니 2.5에는 응답하기 전에 생각을 추론할 수 있는 ‘생각 모델’이 있다.

구글은 “이번 새로운 버전은 지금까지 출시된 것 중 가장 지능적인 AI”라면서 “첫 번째 릴리스는 2.5 Pro의 실험 버전”이라고 소개했다. 여기서 말한 AI의 ‘추론’이란, 시스템이 정보를 분석하고, 논리적 결론을 도출하고, 맥락과 뉘앙스를 통합하고, 정보에 입각한 결정을 내리는 능력을 의미한다.

구글은 “제미니 2.5 Pro는 LMArena 리더보드에서도 큰 차이로 1위를 차지했으며, 고품질 스타일을 갖춘 매우 유능한 모델”이라고 자찬했다. 또한 강력한 추론 및 코드 기능을 보여준다고 했다.

제미니 2.5 Pro는 현재 구글AI 스튜디오와 제미니 어드밴스드 사용자를 위한 제미니앱에서 사용할 수 있다. 버텍스AI에 곧 출시될 예정이며, 세부적인 출시 정보는 몇 주 안에 발표될 예정이다.

구글은 “제미니 2.5 Pro가 새로운 추론이 필요한 다양한 벤치마크에서 좋은 성능을 보인다”면서 “인간의 지식과 추론의 경계를 포착하기 위해 만들어진 데이터 세트인 ‘Humanity's Last Exam’ 평가의 도구를 사용하지 않은 모델에서 18.8%의 점수를 받았다”고 밝혔다.

이는 또 코딩 측면에서 제미니 2.0에 비해 큰 발전을 이뤘다고 소개했다. “시각적으로 효과적인 웹 앱과, 에이전트 코드 애플리케이션을 만드는 데 탁월하며, 코드 변환 및 편집도 가능하다”는 것이다.

또한 토큰 컨텍스트 창이 100만 개에 달하며, 곧 200만 개로 출시된다. 구글을 이를 통해 “모델이 방대한 양의 데이터를 이해하고 텍스트, 오디오, 이미지, 비디오, 심지어 전체 코드 저장소 등 다양한 유형의 정보를 사용, 복잡한 문제를 해결할 수 있다”고 강조했다.

저작권자 © 애플경제 무단전재 및 재배포 금지