오픈AI vs 메타, 말하고 대화하는 AI 챗봇 경쟁
기존 텍스트․언어․이미지․동영상 뛰어넘어 ‘음성’ 기능도 갖춰 오픈AI GPT-4o로 선제 공략, 메타 ‘메타AI’에 음성 기능 접목 개발 유명인 음성 ‘저작권’ 시비 방지 위해 거액 로열티 지급도
[애플경제 이보영 기자] 생성 AI 기반의 챗봇 기술이 텍스트와 언어, 이미지, 영상 기술을 넘어 최근엔 음성 기능으로 확장되고 있다.
오픈AI가 지난달 하순 공식적으로 출시한 ‘GPT-4o 고급 음성 모드’가 대표적이다. 이는 현재 일부 챗GPT 플러스 유료 사용자를 대상으로 알파 버전을 제공하고 있다. ‘GPT-4o 고급 음성 모드 알파 버전’은 소규모 사용자 그룹에 제공되며 올 가을까지 모든 챗GPT 플러스 사용자에게 점진적으로 배포할 예정이다.
오픈AI, 스칼렛 요한슨 도용 시비로 출시 두달 미뤄
지난 5월 GPT-4o의 음성기능이 처음 공개되었을 때는 한바탕 소동을 빚기도 했다. 당시 챗봇의 음성이 유명 여배우 스칼렛 요한슨의 목소리를 무단으로 도용했다는 시비가 일면서 논란이 되었다. 요한슨은 GPT-4o의 음성 중 하나인 ‘스카이’가 자신의 목소리를 무단 도용했다고 주장하면서 문제가 불거졌다.
이에 오픈AI는 일단 부인했으나, 스카이 음성을 삭제하고 올해 6월 출시 예정이었던 GPT-4o의 고급 음성 모드 출시를 연기했다. 그로부터 두 달 뒤인 7월말, 일부 사용자에게 고급 음성 모드 서비스를 제공하기 시작한 것이다.
이번에 공개된 ‘GPT-4o 고급 음성 모드 알파 버전’은 멀티모달을 적용, 단일 모델에서 텍스트와 음성 간 변환을 처리함으로써 응답에 걸리는 지연 시간을 크게 줄였다. 또한 사용자의 슬픔·흥분 등 목소리 속의 감정적 억양을 감지할 수도 있게 했다.
기존 솔루션은 음성 텍스트 변환 작업→GPT-4의 프롬프트 처리→챗GPT 텍스트 음성 변환의 과정을 거쳐야 했다. 그러나 GPT-4o는 동시에 모달 간의 전환이 가능한 멀티 모달이기 때문에 실제 대화처럼 즉각 응답을 할 수 있게 된 것이다.
현재는 논란을 빚었던 ‘스카이’ 음성을 제외한 ‘주피터’ ‘브리즈’ ‘엠버’ ‘코브’ 등 4가지 음성만을 사용할 수 있다. 또한 딥페이크 논란을 피하기 위해 사람의 목소리를 흉내 내는 것을 차단했다. 저작권 문제도 방지하기 위해 음악이나 다른 저작권 있는 오디오를 생성하는 요청을 차단하는 새로운 필터도 도입했다.
‘GPT-4o’는 음성 인식, 스피치-투-텍스트(Speech to text), 이미지 인식 기능 등이 통합된 대화형 인터페이스 형태다. 자연스러운 실시간 상호작용이 가능한 멀티모달 모델로서 모델이 음성, 텍스트, 이미지로 콘텐츠를 생성하거나, 그런 형태의 명령을 이해할 수 있다.
기존 GPT 모델이 글자(텍스트)를 통해 명령하는 방식이라면, GPT-4o는 음성, 텍스트, 시각물을 입력하면 AI가 추론하고 그 결과를 도출하는 등 획기적인 능력을 갖고 있다.
실제로 GPT-4가 응답에 평균 5.4초가 걸리는 데 반해, GPT-4o의 응답시간은 최소 232밀리초(ms·1000분의 1초), 평균 320ms가 걸린다.
메타, 할리우드 스타들과 ‘협약’ 추진
한편 메타도 유명 배우와 음성 사용을 위한 협약을 맺어 대화형 AI 서비스 개발에 박차를 가하고 있다. 메타는 5일 할리우드 스타들의 목소리를 AI 프로젝트에 활용하기 위해 수백만 달러의 계약을 체결하고 이들의 목소리를 활용한 AI 도구를 개발하고 있다고 발표했다.
예를 들어 래퍼 겸 배우 와카피나, 배우 주디 덴치, 배우 키건 마이클 키 등과 협상 중인 것으로 전해졌다. 이들의 목소리는 메타 AI에 통합되어, 시리, 구글 어시스턴트 등과 유사한 디지털 비서 서비스나 챗봇에 활용할 계획이다.
‘메타 AI’는 메타가 2023년 7월 처음 공개한 AI 비서다. 이는 페이스북과 인스타그램, 왓츠앱 등 메타의 모든 소셜미디어에 탑재되어있다.
메타는 올해 9월 개최하는 연례행사 ‘커넥트’이전에 유명인들과의 ‘음성 협상’을 마무리하는 것을 목표로 하고 있다. 현재의 텍스트 위주 ‘메타 AI’에 음성기능을 추가, 이용자의 질문에 답하는 등 대화가 가능하게 한다는 얘기다. 이를 통해 사용자 편의성, 상호작용 경험을 향상할 방침이다.
그동안 메타와 유명인들 간의 협상은 난항을 겪었다. 메타는 계약 기간 동안 목소리를 다양한 용도에 쓰기를 원하고 있다. 그러나 유명인과 소속사 측은 엄격한 용도 제한을 요구하면서 협상은 여러 번 중단되었다. 그러나 이번에 마침내 일부나마 계약이 성사됨으로써 AI플랫폼들이 자신을 이용한 AI 도구 개발을 꾸준히 반대해 온 할리우드 스타들과 합의에 도달했다는 점에 의의가 있다는 평가다.
배우, 가수 등 할리우드 스타들은 AI에 의해 초상권이 침해되거나 생계유지가 어려워지는 상황을 우려, AI 도구 개발에 반발해 왔다. 급기야 지난해 7월 ‘전미 배우·방송인 노동조합’(SAG-AFTRA)은 파업까지 돌입한 바 있다.
메타는 지난해 6월, 추가 학습 없이 영어, 프랑스어, 스페인어, 독일어, 폴란드어, 포르투갈어 등 6개 국어의 음성을 만들어 낼 수 있는 생성 AI 모델 ‘보이스박스(Voicebox)’를 개발한 바 있다. 보이스박스는 지금까지 영어, 프랑스어, 스페인어, 독일어, 폴란드어 및 포르투갈어로 된 공개 도메인 오디오북에서 녹음된 5만 시간 이상의 음성과 대본을 두고 학습해왔다. 이는 텍스트를 입력하면 다양한 유형의 음성을 출력할 수 있는 모델이다. 음성 편집과 샘플링, 스타일 설정 등이 가능한 점이 특징이다.
그러나 목소리로 답하는 AI 시대인 만큼, 음성 AI 서비스를 둘러싼 저작권 문제도 불거지고 있다. AI의 목소리 구현은 기존의 데이터를 학습하는 것을 기반으로 한다. 그러므로, 특정 아티스트의 음성 자료를 허가 없이 사용하는 것 역시 저작권 침해 행위로 간주될 수 밖에 없다.
앞서 오픈AI는 GPT-4o 발표 직후 공개한 AI 음성 중 하나인 ‘스카이’의 목소리가 배우 스칼릿 조핸슨의 목소리를 무단 도용했다는 지적을 받아 이를 삭제한 바 있다. 메타는 이를 교훈삼아 아예 수백만 달러의 사용료를 지불하길 한 것이다.