연례 ‘Made by Google 2024’서 공개, ‘10가지 음성 기능’ 접목
“시리, 알렉사보다 자연스러워, 3가지 음성 오픈AI보다 다양”
사용자 요청에 ‘환각’ 현상도, 구글 ‘알파 테스트’ 중
[애플경제 김예지 기자] 13일 열린 구글의 연례 하드웨어 이벤트 ‘Made by Google 2024’에선 상대적으로 크게 관심을 받지 못했던 이미지 생성 ‘픽셀 스튜디오’, 스크린샷에 정보를 저장하고 구성할 수 있는 ‘픽셀 스크린샷’ 등 나름대로 눈길을 끄는 AI 관련 기술이 선보였다. 그러나 역시 가장 관심을 모은 것은 역시 음성 기능을 접목한 AI챗봇 ‘제미니 라이브’(Gemini Live)였다.
전문가와 언론매체에 따라 각기 평가는 다양하다. 대체로 ‘시리(Siri)와 대화하는 것보다는 나았지만, 기대만큼 만족스럽진 않다’는 반응도 있었다.
대화형 AI챗봇, ‘완성된 기능은 구글이 최초 출시’
그럼에도 오픈AI의 GPT-4o 등이 그렇듯이, 이 제품 역시 획기적인 기술로 평가할 만하다. 이는 AI 챗봇에 비교적 자연스러운 음성 기능을 접목, 사용자와 대화를 나눌 수 있도록 했다. 다분히 오픈AI의 GPT-4o와 같은 고급 음성 모드에 대한 대응으로 볼 수 있다. 성능면에선 GPT-4o와 비슷한 수준이란게 대체적인 평가이며, 이날 행사 직후 제한된 사용자들을 대상으로 알파 테스트를 하고 있다.
일부 외신은 “오픈AI가 먼저 기능을 데모해 구글보다 먼저 출시했지만, 완성된 기능은 구그이 가장 먼저 출시한 셈”이라고 분석하기도 한다. 실시간 대화 기능은 여느 텍스트 위주의 챗봇은 물론, 시리나 알렉사(Alexa)와 대화하는 것보다 훨씬 자연스럽게 느껴진다는 평가다. 특히 이날 시연에서 ‘제미니 라이브’는 2초 이내에 질문에 응답하고, 마땅한 대답이 궁할때는 즉시 다른 대화로 전환하는 순발력을 보이기도 했다.
오픈AI의 GPT-4o가 3개의 음성을 사용할 수 있는데 비해, ‘제미니 라이브’는 10개의 음성 중에서 선택할 수 있다. 구글은 이를 위해 성우들의 협조를 받아 다양한 음성을 만들었다. 사용자들은 “갖가지 음성이 있다보니, 그 중엔 거의 인간의 목소리와 똑같이 들리는 음성도 있다”는 반응이다.
구글은 구체적 사용 사례를 들어 그 성능을 소개했다. 예를 들어 ‘구글 제품 관리자가 야외 공간과 놀이터가 있는 공원 근처의 가족 친화적인 와이너리를 찾아 아이들이 함께 뛰놀며 지낸 수 있는 장소’를 제미니 라이브에 추천해줄 것을 요청했다.
이는 ‘시리’나 구글 검색보다 훨씬 복잡한 작업이다. 그러나 제미니는 사용자의 그런 요청에 딱 들어맞는 특정 장소를 신속하게 추천했다.
“아직은 완벽하지 않아...일부 환각도”
그러나 한계도 있다는 지적이다. 좀더 가까운 곳, 즉 차로 10분 거리에 사용자가 염두에 둔 장소가 있었음에도 불구하고, 근처 놀이터를 착각(환각)한 듯했다.
구글은 또 사용자가 도중에 제미니 라이브를 중단하면, AI가 빠르게 다른 화제로 바꾸는 기능을 보여주기도 했다. 이를 통해 사용자가 대화를 제어할 수 있다는 얘기다. 그러나 정작 이 기능은 아직은 완벽하게 작동하지 않는 것으로 알려졌다. 또한 구글의 프로젝트 관리자와 ‘제미니 라이브’가 대화 도중 서로 말을 자르기도 했다. 관리자가 AI가 말한 내용을 알아채지 못하는 듯한 모습이었다.
제품 관리자에 따르면 구글은 ‘제미니 라이브’가 제공하는 10개 음성 외의 다른 음성을 노래하거나 모방하는 것을 허용하지 않는다. 이는 무엇보다 저작권법과의 마찰을 피하기 위한 것이다. 또한 ‘제미니 라이브’는 사용자가 챗봇의 음성이 갖는 감정적 상태나 억양을 이해하도록 하는 데 집중하진 않는 것으로 전했다.
전반적으로 ‘제미니 라이브’는 간단한 구글 검색보다 더 자연스럽게 검색어 주제에 깊이 파고들 수 있도록 개선된 방법이다. 그래서 구글측은 “‘제미니 라이브’는 완전한 멀티모달 AI 모델인 ‘프로젝트 아스트라’(Project Astra)로 가는 과정의 하나”라는 얘기다. 현재 ‘제미니 라이브’는 음성 대화만 가능하지만, 구글은 앞으로 실시간 영상 기능도 추가할 계획이다.
