앤트로픽, 음성-텍스트 기술과 클로드AI 접목, ‘AI가 컴퓨팅 작업’
사용자 음성에 실린 감정·심리상태 파악, 텍스트로 전환, 명령
기존 엔비디아·메타·구글의 텍스트-음성 기술보다 진화

(이미지=AP, =WSJ)
(이미지=AP, =WSJ)

[애플경제 이윤순 기자] 음성으로 명령을 내리면 이를 AI가 알아듣고 마우스와 키보드를 작동하며 컴퓨터로 작업할 수 있는 기술이 등장했다. 앞서 텍스트 프롬프트를 음성으로 전환할 수 있는 메타, 구글, 그리고 어제 공개된 엔디비아 AI 모델 ‘푸가토’(Fugatto)보다 몇 걸음 더 나아간 첨단 기술이다.

기존의 ‘푸가토’ 등은 텍스트를 음성으로 전환하는 기술이다. 그러나 이번에 앤트로픽의 새 기술은 음성을 텍스트로 변환하고, 이를 다시 클로드AI가 인지, 컴퓨터를 작동하는 것이다.

한 마디로 앤트로픽이 개발한 기술은 클로드 AI에 컴퓨터 제어권을 부여하는 것이다. 일단 실험 결과는 대성공인 것으로 알려졌다. 일부 팁스터(사전 정보유출자)들에 의해 익스트림테크, 테크레이다 등 일부 기술매체를 통해 알려진 이 기술은 문자 그대로 인간과 컴퓨터 간 인터페이스를 획기적으로 전환시키는 시도로 평가된다.

“스티븐 호킹 박사 생전에 이 기술 있었더라면…”

만약 고 스티븐 호킹 박사 생전에 이런 기술이 상용화되었다면, 입에 도구를 문채 그토록 힘겹게 기기를 작동시키는 수고를 하지 않아도 될 법했다. 그저 말로 명령만 하면, AI라는 ‘오퍼레이터’가 사용자가 원하는대로 컴퓨팅 기기를 작동하는 것이다.

엔트로픽은 SW업체 흄(Hume)의 AI 보조 도구 ‘Hume AI’에 새로운 ‘감정-음성 인터페이스’(Empathic Voice Interface)(EVI) 2를 접목, 클로드가 사용자의 말투나 음성에 밴 감정까지 읽어내고, 세밀하게 작업할 수 있도록 했다.

이는 대화 과정에서 흔히 상대방의 분위기를 맞추는 것 이상의 차원이란 얘기다. 사용자가 말하는 내용과, 클로드AI가 컴퓨터를 작동하는 ​동작 간의 연결을 최대한 매끄럽게 한 것이다. 일단 EVI 2는 사용자의 음성을 텍스트로 변환, 클로드에게 보낸다. 그러면 클로드는 마우스를 움직이고, 버튼을 클릭하며, 심지어 스크린샷을 찍는 등 컴퓨터를 제어한다.

이 경우 클로드는 그 과정을 설명하기 위해 평범한 언어를 사용한다. 즉, EVI는 텍스트 프럼프트를 자연스러운 인간과 같은 음성으로 변환해 클로드에 연결한다. 이는 대화나 다름없되, 마우스나 키보드 없이 컴퓨터에서 작업을 완료하는 방법다.

여기서 흄 AI는 더 자연스럽고 직관적인 방식을 사용하도록 설계되었다. 명령을 입력하거나 어색한 메뉴를 탐색하는게 아니라, 기기와 유동적이고 감정적이며 지적인 대화를 나눌 수 있다.

노트북에 말로 명령하면, 음성 응답하며 컴퓨팅

예를 들어 사용자가 노트북에 대고 “조금 압도당하는 것 같아. 내 할 일 목록을 정리해줄 수 있어?”라고 말한다. 그러면 노트북이 공감하는 듯한 느낌의 적절한 선의 부드러운 목소리로 응답하면서 실제로 목록을 설명해준다,

이같은 사실이 알려진 직후 앤트로픽은 별도 블로그를 통해 “클로드를 EVI와 통합함으로써 우리는 진정으로 특별한 기술을 만들었다”면서 “클로드의 최첨단 자연어 능력과 개성은 EVI의 표현력과 이해력, 공감능력을 보완한다”고 설명했다. 그러면서 “특히 EVI는 클로드의 응답을 ‘연출’하고, 놀라울 정도로 인간적인 느낌이 나는 유동적이고 맥락 인식하는 수준의 대화를 생성할 수 있다”고 강조했다.

‘흄’의 CEO 엘런 코웬도 자사 블로그 게시물에서 “이번 클로드는 상당한 달변가”라며 “사람들과 대화를 즐기는 좋은 ‘성품’을 지니고 있다”고 해 눈길을 끈다.

한편 앤트로픽의 EVI 기반 클로드와는 좀 다르지만, 최근 ‘Hume AI’와 같은 생성 AI 보조 도구와 챗GPT의 고급 음성 모드를 결합하거나, MS 코파일럿 보이스 등 음성 인터페이스를 접목하는 사례가 날로 늘어나고 있다. 이들 AI 모델은 사용자가 말을 가로채거나 주제를 쉽게 바꿀 때도 순발력있게 응답할 수 있는 AI 보조기술도 장착되어 있다.

AI가 사용자 파일, 메시징으로 ‘환각’, 개인정보 악용 우려도

이는 기존 아마존이나 구글의 음성 보조도구보다 훨씬 진화된 것이다. 이런 기술을 컴퓨터 제어기술과 결합하면 갑자기 새로운 지평이 열린다. 특히 장애가 있거나 손으로 다른 일을 동시에 하는 사람들에게 다른 일도 쉽게 할 수 있는 멀티태스킹이 더 수월하게 된다. 그 대표적인 사례가 이번에 등장한 앤트로픽의 클로드 컴퓨팅 제어 기술이다.

다만 문제점도 있긴 하다. AI가 사용자의 파일과 메시징 서비스까지 제어할 수 있다면, AI 환각이 일어날 경우 이는 치명적일 수 있다. 게다가 키 입력과 브라우저 기록의 디지털 버전이 AI 기록의 일부가 되면 개인 정보 보호도 더욱 어려워진다. 그럼에도 불구하고 ‘Hume AI’와 앤트로픽의 협업으로 만든 클로드 컴퓨터 제어 기능은 AI를 ‘개인화’하는 데 큰 진전으로 평가되고 있다.

저작권자 © 애플경제 무단전재 및 재배포 금지