챗GPT 등장 후 최신 ‘가짜 오디어 AI음성 복제’ 범람
유명인 재현 오디오 영상, 오픈 소스 SW 소셜미디어 급속 유포
기업 CEO 가짜 영상으로 주가조작 등 각종 사회적 문제 우려
[애플경제 이보영 기자] 조 바이든 미국 대통령이 난데없이 백악관 회견에서 난데없이 트랜스젠더를 공격하거나, 빌 게이츠가 ‘코로나 백신’이 에이즈를 유발한다는 주장을 편다. 국내의 한 인기있는 진보 성향의 MC가 유튜브에서 느닷없이 특정 회사의 제품을 열심히 홍보하기도 한다.
이 모든 것은 챗GPT가 등장하면서 급속히 유포되기 시작한 새로운 AI 음성 복제도구에 의한 것들이다. 최근 AP통신이나 워싱턴 포스트 등에 따르면 초대형AI에 기반한 음성 복제술이 급속히 유포되면서 세계 각국에서 이란 가짜 음성합성 영상이 큰 문제가 되고 있다. 자칫 이는 정치, 사회적으로 큰 혼란을 불러 일으킬 것으로 예상되기도 한다.
초대형 AI 기반한 최신 음성 복제술
앞서 지난 1월 25일 바이든 대통령은 워싱턴 백악관 루즈벨트룸에서 “우크라이나에 탱크를 제공할 것”이라고 밝힌 바 있다. 그러나 이 모습을 그대로 옮겨와서 바이든이 트랜스젠더를 공격하는 발언을 하는 모습으로 변조한 영상이 최근 널리 퍼지고 있다. 음성과 영상을 합성하는 최신의 인공지능 도구로 만들어진 것이다. 이 조작된 비디오 버전은 지난 주 소셜 미디어에서 수십만 건의 조회수를 기록한 바 있다.
그 동안 할리우드에선 영화 기법 중 하나로 이런 방식으로 현실을 왜곡할 수 있었다. 그러나 전문가들은 이 기술이 이젠 AI기술을 통해 온갖 가짜 정보를 퍼뜨리는 도구로 널리 사용되고 있는 것이다. 이를 두고 전문가들은 “그야말로 최신 AI를 통한 가짜정보 홍수가 예상되며, 지금까지의 ‘딥페이크’와는 차원이 다른 것”이라고 우려하고 있다.
특히 지난 달 오픈AI가 챗GPT를 공개한 이후 이런 현상을 더욱 심해지고 있다. 소셜 미디어에선 ‘COVID-19’ 백신이 에이즈를 유발한다고 주장하는 빌 게이츠와, 배우 엠마 왓슨이 히틀러의 반민주적이고 호전적인 자서전 ‘나의 투쟁’을 읽는 모습이 담긴 가짜 오디오 영상 등이 연일 오르내리고 있다. 바이든이 트랜스젠터를 혐오하는 연설문을 읽는 모습도 계속 유포되고 있다.
가짜 오디오 영상들, 소셜미디어에서 널리 공유
이런 가짜 영상들을 소셜 미디어에서 널리 공유되며, 계속 빠르게 공유되고 있다.
그런 가운데 미국의 ‘일레븐랩스’라는 음성 합성 전문업체는 최첨단의 오디어 영상 합성 AI기술을 개발, 눈길을 끌었다. 이 회사의 기술은 사용자들이 몇 분간의 오디오 샘플을 업로드하고, 원하는 문장이나 텍스트를 입력함으로써 그 어떤 실제 사람의 목소리나 모습과도 똑같이 재현할 수 있도록 한다. 최근 이 회사는 이같은 음성 합성 플랫폼의 베타 제품을 출시한 것으로 알려졌다.
일레븐랩스는 “이 기술은 화자의 목소리와 감정을 보존하기 위해, 영화나 오디오북, 게임 등에서 필요한 그 어떤 언어로도 오디오를 더빙하도록 개발되었다”고 소개했다.말한다.
디지털 포렌식 전문가들은 이 기술은 비디오 버튼을 몇 번 클릭하면 누구나 사람의 목소리를 시뮬레이션하는 오디오를 빠르게 생성할 수 있는 신세대 인공지능 도구를 사용하여 만들어진 것으로 파악했다.
물론 아직은 앞서 바이든 대통령의 경우와 같은 소셜 미디어의 가짜 영상들은 대부분의 사용자들을 속이는 데 실패했을 수도 있다. 그럼에도 불구하고, 이는 사람들이 현실 세계에 해를 끼칠 수 있는 혐오스럽고 잘못된 정보로 가득 찬 최신형 ‘딥페이크’ 비디오를 생성하는 것이 얼마나 쉬운지를 보여준다.
"이러한 도구들은 기본적으로 화재에 더 많은 연료를 추가할 것입니다."라고 멀티미디어 포렌식에 초점을 맞춘 미시간 대학의 전기 및 컴퓨터 공학 교수인 Hafiz Malik이 말했습니다. "괴물은 이미 도망 중입니다."
관련 기술 제품화, 일레븐랩스에 따가운 시선
이처럼 사회적 비판이 일면서, 일레븐랩스사는 트위터를 통해 “음성 복제 오용 사례가 증가하고 있다”며, “이에 남용을 단속하기 위한 안전 장치를 모색하고 있다”고 발표했다. 이를 위한 첫 번째 단계 중 하나는 결제 정보를 제공하는 사람만 해당 기능을 사용할 수 있도록 하는 것이다. 본래 익명의 사용자도 음성 복제 도구에 무료로 액세스할 수 있던 것을 차단한 것이다. 이 회사는 또한 “문제가 발생할 경우 생성된 오디오의 작성자를 추적할 수 있다”고 주장하기도 한다.
그럼에도 일각의 비판이 사그러들지 않는다. 디지털 포렌식과 가짜 정보를 주로 연구하고 있는 캘리포니아 대학교 버클리의 하니 패리드 교수는 “업체 측이 설사 그런 노력을 한다고 해도, 그 피해를 줄이지는 못할 것”이라고 AP통신에 밝혔다.
이같은 가짜 영상기술은 더욱 큰 사회, 경제적 위해를 가할 것이라는 지적도 있다.
앞서 패리드 교수는 “일부 악의를 가진 투자자들이 특정 기업의 CEO가 자사 수익이 감소했다고 말하는 가짜 오디오 영상을 유포함으로써 주식 시장을 움직일 수 있다”면서 “이미 유튜브에는 바이든이 미국이 러시아에 대해 핵 공격을 하고 있다고 말한 것처럼 보이도록 비디오를 수정하는 툴도 나돌아다닌다”고 밝혔다.
무료 온라인 AI 이미지 생성기도 인기
최근엔 이같은 가짜 오디오 영상기술의 오픈 소스 SW도 온라인에서 유통되고 있다. 이에 상업적 목적으로 이를 유통하는 행위가 범람할 것이란 우려가 높다. 실제로 AP통신은 그 유해성을 실제로 입증하기 위해 “온라인상의 무료 오픈 SW를 단 몇 분 만에 배우 다니엘 크레이그와 제니퍼 로렌스가 말하는 모습을 생성할 수 있었다”고 밝히기도 했다.
그런 가운데 미드저니(Midjourney)나, 달리(DAL-E)와 같은 무료 온라인 AI 이미지 생성기는 간단한 텍스트 프롬프트를 통해 기존 레거시 미디어 스타일로 전쟁이나 자연 재해에 대한 가짜 뉴스를 사실적인 이미지로 생성할 수 있다.
‘딥페이크’와는 차원이 달라
이는 특히 약 5년 전 딥페이크가 처음 세상을 떠들썩하게 했을 때와는 또 다르다는 지적이다, 당시 딥페이크는 피사체가 눈을 깜빡이지 않는다거나, 오디오가 영락없는 로봇의 음성으로 들리기 때문에 가짜임을 충분히 감지할 수 있었다. 그러나 최근 GPT 등 AI기술이 한층 정교해지면서 상황은 완전히 달라졌다.
예를 들어 바이든이 트랜스젠더에 대해 경멸적인 발언을 하는 비디오는 1월 25일 미국의 우크라이나 탱크 파견을 발표하는 CNN 생방송 영상을 변조한 것이다. 당시 해당 영상을 찍은 다음 AI가 만든 오디오와 대통령의 실제 동영상을 결합했다.
그 과정에서 바이든의 입놀림이 오디오와 일치하도록 조작했다. 대부분의 트위터 사용자들은 실제론 바이든이 말하고 있는 것이 아니라는 것을 인식했지만, 그럼에도 불구하고 그런 영상 기법이 나타난 사실 자체에 충격을 받았다. 간혹 어떤 이들은 그 영상이 진짜라고 믿기도 했고, 일부 사람들은 이를 믿어야 할지 헷갈리는 경우도 있었다.
이에 캘리포니아 버클리대의 패리드 교수는 “앞으로 매우 강력한 AI 기반의 기술과, 사용 편의성, 그리고 모델이 보이는 사실이 결합된 가짜 오디오 영상들이 인터넷 공간에 범람할 것”이라며 “앞으로 어떤 일이 벌어질지 알 수 없다”고 우려했다.
한편 지난 달, 미국의 일부 학교들은 학기말 리포트와 같은 텍스트를 학생들이 원하는대로 생성해주는 챗GPT를 차단하는 조치를 취했다.
