오픈AI ‘GPT-4o’ 다음 날, 구글 신제품 대거 '공개'
구글 ‘I/O 컨퍼런스’…“검색기능에 강화된 ‘제미니’”, AI챗봇 경쟁 치열 ‘GPT-4o’ 맞서 ‘제미니’에 음성․영상기술 첨가, 검색에 ‘AI 요약’ 추가 ‘젬마2’, ‘이메진3’, ‘트릴리움 TPU’, ‘제미니 1.5 플래시’ 등 공개
[애플경제 이윤순 기자] 생성AI 기반의 챗봇과 검색모델을 두고 구글과 오픈AI, MS가 신경전을 벌이고 있다. 오픈AI가 기존 GPT를 한층 강화하며 음성기능을 추가한 플래그십 생성AI모델 ‘GPT-4o’를 출시한 다음 날인 15일(한국시각 16일) 구글은 'Google I/O 2024 event’를 시작했다. 이 자리에서 구글은 대화형 검색 출력 기능인 ‘AI 요약(overview)’과 함께 워크스페이스 전반에 제미니(Gemini)를 적용할 것이라고 밝혔다.
오픈AI가 구글의 ‘이벤트[애플경제 이윤순 기자] ’를 의식, 하루 먼저 ‘GPT-4o’ 발표 시기를 잡은 것인지, 아니면 구글이 오픈AI의 바로 다음 날 일정을 잡은 것인지는 확실치않다. 다만 오픈AI와 MS에 맞서 구글도 한층 강화된 검색 기능으로 경쟁력을 높이고 있는 모양새다. 하루 앞서 오픈AI는 ‘omni’를 뜻하는 ‘o’를 첨가한 ‘GPT-4o’를 출시했다. 이는 다양한 텍스트 기능과, 음성 및 비디오 처리 능력을 뜻하는 것이다. ‘GPT-4o’는 앞으로 오픈AI 개발자와 소비자들에게 몇 차례에 나눠 출시될 것으로 전해졌다.
양사 하루 차이로 신제품 발표 ‘눈치싸움’?
이에 바로 그 다음 날 구글은 이메일 스레드를 해석하거나 스프레드시트를 더 쉽게 만들 수 있도록 워크스페이스 전반에 걸쳐 제미니를 적용한다고 밝혔다. 특히 “검색 기능의 새로운 차세대 버전인 ‘AI 요약’ 기능을 미국에서부터 출시하고, 점차 다른 나라로 확대해갈 것”이라고 밝혀 눈길을 끌었다. 이는 다양한 앱에서 작동할 수 있는 기능이다.
이 밖에도 구글은 구글 클라우드, 제미니 등의 변경 사항들을 추가로 발표했다.
특히 올 하반기, ‘제미니’에 음성 및 영상 기능을 추가하기로 한 것도 눈에 띈다. 이는 오픈AI가 GPT-4에 음성 기능을 추가한 ‘GPT-4o’를 출시한 것과 비교된다. 그렇게 되면 카메라를 응시하며 질문과 답변을 나눌 수 있게 된다. 또 사용자는 개인용 작문 코치 역할과 같은 맞춤형 에이전트인 ‘젬스(Gems)’를 만들 수도 있다.
월스트리트저널은 “이처럼 ‘제미니’에 다중 모드를 추가한 것은 이번 주 초 오픈AI가‘GPT-4o’를 사용한 챗GPT 시연과 비교할 때 흥미로운 시기에 이루어졌다”면서 “둘 다 매우 자연스러운 대화를 보여주었지만, ‘GPT-4o’의 경우 AI 음성의 답변이 때론 오류를 범하기도 했다”고 전했다.
구글이 선보인 ‘AI 요약’ 기능은 검색 상단에 표시되는 생성AI 검색(SGE)기능을 확장한 것이다. 이미 지난 10월부터 미국에선 SGE가 본격적으로 보급되고 있다. 이는 이미지나 텍스트를 생성할 수도 있다. 이번 ‘AI 요약’은 구글 검색 엔진의 ‘답변’ 상단에 AI 생성 정보를 추가하는 것이다. 이는 답변을 위해 모든 정보를 직접 종합하는 대신, 질문에 대해 즉답을 할 수 있는 기능이다.
‘AI요약’, 10억 사용자들에게 제공
구글은 올해 말까지 10억 명 이상 사용자들에게 ‘AI요약’을 제공할 계획이다. 이는 질문에 대한 답변을 정확하게 할 수 있도록 갖가지 주변 정보에 대한 검색 작업을 서로 연결한다. 이른바 다단계 추론이 가능하다. 예를 들어 ‘특정 지역 최고의 요가 스튜디오’를 질문하면, 스튜디오와 집 사이의 거리나, 스튜디오에 대한 자세한 소개 등을 한꺼번에 검색 상단의 편리한 열에서 보여준다.
‘AI 요약’은 또 영상을 제시하며 던진 질문에도 답변할 수 있다. 이는 향후 몇 주 내에 출시될 예정이며, 먼저 ‘Search Labs’에서 사용할 수 있다. 이를 통해 “어떤 이미지가 AI로 생성되었는지, 어떤 이미지가 웹에서 가져온 것인지 주의 깊게 식별할 수 있다”는 구글의 설명이다. 그러나 AI 답변이 부정확하거나 관련성이 없거나, 오해의 소지가 있는 것으로 판명될 경우 검색의 유용성을 약화시킬 수 있다는 우려도 나온다.
제미니, 다양한 업그레이드 버전 선봬
구글은 또한 ‘제미니 1.5 Pro’도 선보였다. 이는 일부 사용자를 위한 200만 개의 컨텍스트 창을 포함, 기존 ‘제미니’를 업그레이드한 것이다. 또 ‘제미니 1.5 Pro’를 다시 업그레이드한 ‘제미니 1.5 플래시’도 출시되었다. ‘제미니 API’의 개발자를 위해 비디오 프레임 추출, 병렬 함수 호출, 개발자를 위한 컨텍스트 캐싱 등의 기능이 포함되었다.
전 세계에서 동시에 출시되는 ‘제미니 1.5 플래시’는 빠른 응답에 초점을 맞춘 소형 모델이다. ‘제미니 1.5 Pro’나 ‘제미니 1.5’ 사용자는 AI가 100만개의 컨텍스트 창에서 분석한 정보를 활용할 수 있다. 구글은 또 ‘구글 클라우드’ 고객을 위해 ‘제미니 1.5 Pro’의 컨텍스트 창을 200만 개로 확장했다. 만약 “더 넓은 컨텍스트 창을 원할 경우 구글 AI 스튜디오나, 생성AI 플랫폼인 버텍스AI (Vertex AI) 대기자 명단에 등록하면 된다.
이를 두고 이날 ‘컨퍼런스’에서 구글 CEO 순다르 피차이“궁극적인 목표는 ‘무한한 맥락’”이라고 말했다. 즉, 광범위한 컨텍스트 창을 통해 무한에 가까운 검색이 가능하게 한다는 뜻이다.
‘제미니1.5’는 G메일이나 Docs 등의 앱이 서로 연결할 수 있도록 해준다. “특히 중소기업의 경우 ‘제미니 1.5’를 통해 이메일 기반 스프레드시트에서 여행 영수증을 정리하고 추적할 수 있게도 해준다”면서 “데이터 Q&A 기능도 함께 출시되었다”고 밝혔다.
구글은 또 이번 컨퍼런스에서 크게 확장된 소규모 언어 모델인 ‘젬마(Gemma)2’를 소개할 예정이다. 이는 같은 소규모 언어 모델이긴 하지만, 거의 소형 프로젝트에 들어갈 수 있을 만큼 좀더 큰 ‘젬마’모델에 대한 개발자들의 수요를 감안, 270억개의 매개변수를 갖고 있다. 이는 ‘Vertex AI’의 단일 TPU 호스트에서 효율적으로 실행될 수 있다는 설명이다. 출시는 6월로 예정되어 있다.
또한 구글은 캡션 작성 및 이미지 기반 질문과 같은 기능을 갖는 ‘언어 및 비전 모델’인 ‘팔리젬마(PaliGemma)’를 출시했다. 이는 역시 ‘Vertex AI’에서 사용할 수 있다.
AI에이전트 유사한 ‘가상 팀원’ 기능
‘Virtual Teammate’(가상 팀원 기능)도 추가할 예정이다. 이는 마치 사람처럼 ID, 워크스페이스 계정, 목표를 가지고 AI 에이전트 역할을 한다. 사용자는 업무에 관해 질문할 수 있고, 함께 일하는 ‘팀’의 ‘총체적 기억’을 공유한다. 사용자는 또 ‘팀’의 프로필에서 AI에 대한 특정 목표를 설정할 수도 있다. 구글은 아직 ‘Virtual Teammate’의 출시일을 발표하진 않았다. 테크레이다는 “이는 아마도 CRM(고객만족관리) 애플리케이션에 연결되는 경우 특히 유용할 것”이라고 평가했다.
텍스트 생성 기능이 크게 향상된 ‘이메진3(Imagen 3)’도 출시되었다. 이는 과거 AI 이미지 생성기의 주요 약점이었던 ‘텍스트 렌더링’을 원활하게 해내도록 한 것이다. 우선 ‘Vertex AI’ 개발자를 위해 ‘이메진 3’가 곧 출시될 예정이다.
또 다른 창의적인 AI 제품은 딥마인드의 차세대 생성 비디오 모델인 ‘Veo’다. ‘Veo’는 터널을 통과, 도시 거리를 주행하는 자동차의 영상과 같은 인상적인 장면을 연출했다. 이는 ‘labs.google’의 실험 도구인 ‘VideoFX’에서 사용할 수 있다. 또한 창의적인 작곡을 위한 생성AI 도구 세트 ‘Music AI Sandbox’도 공개한다. 다만 공식 출시 날짜는 알려지지 않았다.
CEO 피차이는 이날 특히 ‘Trillium’이라고 불리는 6세대 Google Cloud TPU를 소개했다. 이는 이전 세대에 비해 4.7배나 성능이 향상되었다는 설명이다. ‘Trillium TPU’는 구글 클라우드 데이터 센터의 성능을 높이고, 나아가선 엔비디아의 AI 가속기와 경쟁하기 위한 것이다. 이는 금년 연말에 출시될 예정인데 비해, 엔비디아가 밝힌 최신 제품 ‘블랙웰 GPU’는 2025년부터 구글 클라우드에서 제공될 예정이다.