가짜 음성복제, ‘뛰는 식별 기술’ 위 ‘나는 복제 기술’

날로 정교해져…대부분 기업·개인 ‘제대로 된 식별기술 부족’ 랜섬웨어·스미싱·피싱 못지않은 폐해, “특히 보이스피싱 도구” 전문가들 “음성 워터마크, 음성 메시지 공유, ‘가족암호’” 등 주문

2025-03-17 이윤순 기자

보이스 피싱 이미지. (사진=게티이미지)

[애플경제 이윤순 기자] AI 음성기술이 날로 발전하면서 웬만한 탐지 기술로는 ‘가짜’ 여부를 식별하는게 불가능할 정도다. 특히 최근 세사미(Sesame), 휴메(Hume) AI, 챗GPT, 구글 제미니 등이 AI 음성기술을 주도하면서 이런 현상은 더욱 심화되고 있다.

음성기술 혹은 복제기술은 음성 품질, 독특한 개성, 상호 작용 기능 등의 측면에서 날로 발전하고 있다. 최근 이들의 성능을 각기 비교한 적 있는 딥크립트는 “그 진정성이나 감성 지능, 대화의 수준 등에서 원래의 사람 음성처럼 느끼게 하는 ‘미묘한 불완전성’을 지니고 있다”고 모호한 평가를 남기기도 했다. 다시 말해 ‘가짜’ 복제가 만연할 수 밖에 없는 현실을 꼬집은 것이다.

세사미, 휴메, 챗GPT, 제미니 등 기술 다양

그렇다보니 갖가지 AI 음성 복제 사기가 끊이지 않으며, 그 수법도 날로 발달하고 있다. 그러나 이에 대한 탐지기술이나 사정 예방기술은 상대적으로 뒤처진 상태다. 단 몇 초 분량의 오디오만으로도 AI 음성 복제 프로그램은 사람의 귀에 ‘원본’과 거의 구별할 수 없는 목소리를 복제할 수 있다.

최근 시장분석기관 컨슈머 리포츠(Consumer Reports)에서 발표한 연구에 따르면, 많은 선도적인 음성 복제 기술로 만든 영상이나 오디오 제품의 경우도 가짜나 속임수를 방지하기 위한 원천적인 기술이나 보호 장치가 애초 없다는 사실이 밝혀졌다.

이 기관에 따르면 테스트 세트의 6개 제품 중 4개가 “공개적으로 액세스 가능한 오디오를 사용하여 ‘가짜 음성 복제본’을 쉽게 만들 수 있었다”고 한다. 즉 제작을 위해 화자의 음성 사용에 대한 동의를 사전에 받았는지 확인하는 기술이나, 사용자 자신의 음성만을 복제할 수 있도록 하는 등의 기술적 메커니즘은 없었다는 얘기다. 심지어 “그중 상당수는 사용자가 무단으로 타인의 음성 복제본을 만들 수 있고, 비용도 무료였다”는 것이다. 그야말로 ‘딥페이크’가 난무하게 된 근본적 원인이라고 할 수 있다.

음성 복제 기술은 합법적 테두리에서 제대로 사용할 경우 자동화를 비롯한 이점이 많다. 그러나 악의를 품은 사람들에 의해 이처럼 ‘흉기’로 돌변할 수도 있다. 사기나 가짜를 방지하기 위한 장치들이 갈수록 발달하는 음성복제 기술로 인해 무력화되고 있다. 이에 범죄자들은 흔히 음성 복제 기술을 무기로 삼아 피해자의 ‘사랑하는 사람’의 목소리를 사용, 사기를 저지르기도 한다.

콜센터 사칭, 채용 위장 등 기업 피해도 커

인증 및 사기 탐지 도구를 개발하는 보안 회사인 ‘핀드롭’(Pindrop)사는 그 때문에 “현재 일어나고 있는 음성 사기는 그 수법이나 속도, 그리고 피해자를 속이기 위한 위장술 등이 엄청난 진화와 발전을 거듭하고 있다”고 밝혔다.

그는 “그 피해는 이제 개인뿐만은 아니”라고 지적했다. 기업들은 ‘콜센터’를 사칭해 계정을 탈취하는 수법이나, 채용을 사칭해 속임수를 쓰는 사기 행위에 거의 무방비로 노출되어있다는 지적이다. 그래서 랜섬웨어나 스미싱, 피싱 등에 못지않게 이같은 음성복제 사기도 기하급수적으로 늘어나고 있다.

음성복제기술 이미지. (이미지=엑시오스)

이같은 AI 음성 복제는 딥페이크 기술과 접목되어, 특히 유명인이나 정치인, 기업 CEO 등대중에게 널리 알려진 인물을 사칭하는데 많이 쓰인다.

예를 들어 미국의 경우 지난 대선 국면에 뉴햄프셔 예비선거에서 AI기술이 접목된 가짜 로보콜에 의해 바이든 전 대통령의 “투표할 필요없다”는 음성을 복제한 딥페이크가 큰 파란을 일으켰다. 그 후, 미국 연방통신위원회는 로보콜에서 AI가 생성한 음성을 사용하는 것을 불법화했다.

비슷한 시기에 일론 머스크는 당시 카말라 해리스 부통령과 똑같은 음성으로 그를 음해하는 가짜 광고를 공유했다. 이는 특히 소셜미디어에 게재됨직한 ‘패러디’인지, 아니면 유해한 AI영상인지를 두고 또 다른 논쟁을 불러일으켰다.

앞서 ‘핀드롭’사도 “소셜미디어는 이런 사기 행위가 가장 횡행하는 공간이 되고 있다”며 “음성 복제는 얼굴 복제 기술보다 훨씬 더 발달했고, 오늘날 누구나 손쉽게 활용할 수 있다는 점에서 더욱 문제가 심각하다”고 자체 연구의 결론을 전했다. 특히 “상업적으로 많이 사용될 우려도 크다”고 했다.

“‘인간의 귀’론 식별 불가한 수준”

그간 음성 복제의 품질이 빠르게 발전하다보니, 이젠 ‘장벽’을 뛰어넘었다는 시각도 있다. 즉 인간의 귀로는 더 이상 ‘인간의 것’과 ‘기계가 생성한 것’의 차이를 감지할 수 없는 지경에 이르렀다는 것이다. 그렇다보니 보이스 피싱 등에 가장 많이 악용되고 있다. 자신의 자녀의 목소리를 극대로 본따서 불의의 사고나 급박한 일을 당해 다급하게 도움을 요청하는 수법은 이미 국내에서도 널리 퍼져있다.

‘컨슈머 리포츠’는 이에 나름의 대처 방안을 제시했다. 반드시 자신의 목소리 등에 대한 ‘동의’를 요구하고, AI에서 생성한 오디오에 ‘워터마킹’을 하는 것은 기본이다. 또 온라인 공간에선 각자 자신만의 ‘맞춤형 음성 메일 메시지’를 공유하는 것도 한 방법이다.

이전에 컴퓨터 보안업체 ‘맥아피’사가 제안한 ‘가족 암호어’도 방법이 될 수 있다. 오로지 가족들끼리만 공유하는 암호를 통해 전화를 걸어오거나, 딥페이크를 보내오는 발신자의 신원을 확인할 수 있다.