기존 사운드 파일 ‘특정 악기나 소리 제거, 추가’ 등 수정
다양한 인간의 음성, 온갖 자연의 소리 등 생성
[애플경제 김예지 기자] 엔비디아가 ‘푸가토’(Fugatto)라는 텍스트-오디오 AI를 개발했다. 최근 이 회사의 비싼 GPU 대신 자체 칩을 개발하는 회사가 한 둘 늘어나는 등 새로운 시장 변화에 미리 대비한 움직임이란 해석도 따른다.
엔비디아는 26일 블로그 게시물에서 “해당 AI 모델은 기존의 소리를 수정하거나, 허공에서 전체 사운드스케이프를 생성할 수 있다”고 주장했다. ‘푸가토’는 ‘Foundational Generative Audio Transformer Opus 1’의 약자다. 즉, 음성, 음악 및 배경 소음을 처리해 모두 단일 오디오 트랙으로 생성할 수 있다는 뜻이다. 기존 사운드 소스도 수정할 수 있다.
이는 텍스트 프롬프트에서 명령을 받아 오디오를 생성하거나 기존 음악, 음성 및 사운드 파일을 수정할 수 있다. 전 세계의 AI 연구자 팀이 함께 설계한 것으로 알려졌다. 엔비디아는 이로 인해 “모델의 다중 악센트 및 다국어 기능이 더욱 강화되었다.”고 전했다.
이는 특히 “인간처럼 소리를 이해하고 생성하는 모델”을 지향한다는 설명이다. 엔비디아는 실제로 ‘푸가토’의 음성 생성 사례를 소개했다. 예를 들어 음악 프로듀서는 이 기술을 사용, 노래 아이디어에 대한 프로토타입을 빠르게 생성한 다음, 이를 쉽게 편집한 후 다양한 스타일이나 음성, 악기소리를 낼 수 있다.
사용자들은 이를 사용, 선택한 음성으로 언어 학습 도구에 대한 자료를 생성할 수도 있다. 비디오 게임 개발자는 이를 통해 플레이어를 선택하고, 그의 동작에 맞춰 게임의 변화에 맞게 사전 녹음된 변형된 게임을 만들 수도 있다.
또한 특정한 액센트를 쓰며 화난 것처럼 들리는 말투나, 천둥 벼락 중에 새가 노래하는 소리를 생성하는 것과 같이 별도로 훈련된 결과를 결합할 수도 있다. 땅을 가로질러 이동하는 폭우 소리처럼, 시간이 지남에 따라 변하는 소리도 생성할 수 있다.
이는 아마도 수천 GIGA 규모의 기존 음악이나 오디오 데이터를 활용한 것으로 짐작된다. 다만 엔비디아는 데이터 세트에 대한 정확한 정보를 밝히지 않고 있다. 그저 “훈련에 사용된 수백만 개의 오디오 샘플”이 포함되었다고만 했다. 알려지기론 ‘푸가토’의 전체 버전은 엔비디아의 유명한 ‘H100’ AI GPU에서 훈련된 25억 개의 매개변수 모델이다.
엔비디아는 ‘푸가토’가 “광고 대행사, 비디오 게임 개발자 또는 추가 작업 없이 작업의 변경 사항을 샘플링하려는 음악가에게 유용한 도구가 될 수 있을 것”이라고 밝혔다. 또한 “기존 음악에서 특정 악기소리를 제거하거나 추가할 수 있다”고도 한다. 기존 음악 소스에서 특정 노이즈를 분리하고 수정할 수도 있다. 즉, AI만으로 생성된 신시사이즈나 한편의 완결된 사운드트랙을 선사할 것이란 설명이다.
엔비디아는 아직은 일반 사용자들에게 ‘푸가토’를 접하게 하거나, 보급할 계획은 없다. 믈론 텍스트 프롬프트에서 소리를 생성할 수 있는 생성 AI 기술은 이번이 처음은 아니다. 메타 는 이미 텍스트 프롬프트에서 사운드를 생성할 수 있는 오픈소스 AI 키트를 출시한 바 있다. 구글도 ‘MusicLM’이라는 자체 텍스트-음악 AI를 보유하고 있다. 또 사용자들은 이 회사의 ‘AI Test Kitchen’ 웹사이트를 통해 이에 접속할 수 있다.
그러나 세계 GPU 시장을 장악하고 있는 엔비디아가 한 발 나아가서 이같은 AI 모델을 개발했다는 점에서 새삼 의미가 남다르다.
