아마존, ‘최대 규모의 텍스트 음성 변환 AI 모델’ 완성 단계
어설프고 부자연스런 비문(非文), 매끄럽고 조리있는 음성으로
“구문분석, 장황한 복합명사구문 강세 배치, 감정적 말 생성”
[애플경제 이윤순 기자] 텍스트를 음성으로 변환시킬 수 있는 대규모 AI모델이 곧 선보일 예정이다. 최근 아마존은 사상 최대 규모의 텍스트 음성 변환 모델을 훈련하고 있는 것으로 알려졌다. 이 모델은 복잡한 문장도 자연스럽게 말하는 능력을 향상시키는 ‘창발적’ 특성을 보여준다는 설명이다.
‘테크크런치’는 “서툰 글쓰기로 된 어설프고 부자연스런 문장이나 비문(非文)을 매끄럽고 조리있는 음성 언어로 바꿔줄 것”이라고 소개했다. 이는 특히 미국 대선 등 선거 국면에서 주목받을 것으로 보인다.
후보자들이 원고나 연설문을 쓰면, 이를 실시간 음성으로 전환해주므로, 선거 유세 등에서 매우 유용할 것이란 기대다.
LLM의 자율 성능개선 능력 활용
이는 또 AI모델의 자율 개선 능력, 즉 언어 모델이 특정 크기를 넘어서면 애초 개발자들이 의도했던 능력 이상의 성능을 나타내는 현상에 주목한 결과이기도 하다. “아직 인간에게 알려지지 않은 이유로 LLM이 특정 지점을 지나면 훨씬 더 강력하고 다재다능해지며 교육받지 않은 작업을 수행할 수 있게 된다”는 것이다. 그런 특장점을 활용, 이같은 텍스트-음성 전환 모델을 개발하고 있다.
새로운 텍스트음성 AI 모델은 ‘Big Adaptive Streamable TTS’(BASE TTS)로 이름 붙여졌다. 이는 일단 특이점을 지나면 지각력이 여느 대화형 AI가 그렇듯이 더욱 강력해지면서, 스스로 자가 성능 개선을 보여준다.
현재 범용AGI를 개발하고 있는 아마존 연구팀은 “AGI처럼 텍스트 음성 변환 모델 역시 성장함에 따라 동일한 일이 일어날 수 있다”면서 “연구 결과 실제로 그런 일은 충분히 일어나고 있다”고 밝혔다.
10만시간 공개 도메인 음성 사용 등
이 모델은 10만시간의 공개 도메인 음성을 사용하며, 그 중 90%는 영어로, 나머지는 독일어, 네덜란드어, 스페인어로 되어 있다.
매개변수는 9억 8천만 개로서, 이 분야 카테고리에서 가장 큰 모델인 것으로 평가된다. 이는 훈련 과정에서 성능 비교를 위해 각각 1만시간과 1천시간 분량의 오디오를 기반으로 400M 및 150M 매개변수 모델을 훈련했다. 이를 통해 “모델 중 하나라도 새로운 행동을 보일 경우, 해당 행동이 시작되는 성능을 갖게 되는 것”이란 설명이다.
결과적으로 이런 자가 능력 개선을 통해 이 모델은 아마존 팀이 찾고 있던 능력을 보여줄 것이란 기대다. 딱히 일반적인 음성 품질 뿐만 아니라, 스스로 관찰하고 측정함으로써 획득한 일련의 창발 능력들이다.
아마존 연구팀은 “문장 구문 분석이나, 장황한 복합 명사에 구문의 강세를 배치하는 것, 감정적이거나 속삭이는 말 생성, “qi”와 같은 외국어 또는 “@”와 같은 구두점에 대한 올바른 음소 생성 등 어려운 작업을 포함하도록 설계되었다”고 ‘테크크런치’에 밝혔다. 다만, ‘BASE TTS’ 중 어느 것도 그런 능력을 수행하도록 명시적으로 훈련되지는 않았다.”고 덧붙여 눈길을 끌기도 한다.
그러나 이런 기능은 자칫 텍스트 음성 변환 엔진을 잘못 작동시켜 엉뚱하게 발음하거나, 단어를 건너뛰고, 이상한 억양을 사용하는 등 실수를 저지르기 쉽다. 실제로 ‘BASE TTS’와는 다르지만, 음성합성 모델인 ‘Tortoise’나 ‘VALL-E’의 경우 그런 사례가 없지 않다. 그런 점에서 “그런 모델보다 훨씬 나은 성능을 보였다”는 것이다.
‘스트리밍’도 가능, 실시간 음성 전환
‘BASE TTS’ 모델은 아키텍처를 공유하기 때문에 모델의 크기와 훈련 데이터의 범위가 모델의 복잡성을 해소하고, 능력을 신장시키는 원인인 것임은 분명하다. 그러나 “아직은 실험적인 모델 내지 프로세스일뿐, 상용 모델이나 그 어떤 것도 아니다”고 선을 그었다. 그래서 앞으로 연구에서는 창발적 능력의 변곡점과, 결과 모델을 효율적으로 교육하고 배포하는 방법을 식별하는게 과제란 얘기다.
‘BASE TTS’ 모델은 또 모델 이름에서 알 수 있듯이 ‘스트리밍’이 가능하다. 즉, 전체 문장을 한 번에 생성할 필요는 없지만, 상대적으로 낮은 비트 전송률로 인해 텍스트-음성 전환이 순간순간 진행된다.
또한 “감정, 운율 등과 같은 음성 메타데이터를 바닐라 오디오와 함께 사용할 수 있는 별도의 낮은 대역폭 스트림으로 패키징하려고 시도했다”는 설명이다.
이같은 텍스트 음성 변환 모델은 특히 2024년 미국 대선을 비롯한 ‘선거의 해’에 딱 들어맞는 기술이란 해석도 있다. 접근성 측면에서도 이 기술은 매우 유용하다는 평가다.
