부적절한 ‘비언어적 발성’, 에로틱한 신음소리, 비명, 총소리 등
오픈AI도 자체 보고서에서 인정, ‘최첨단 고급 음성 모델’의 결함
[애플경제 김예지 기자] OpenAI가 최신 제품 GPT-4o를 최근 업그레이드하면서 판촉에 나섰지만, 일각에선 성능과 품질에 대한 의구심을 제기하고 있어 주목된다. GPT-4o는 챗GPT에서 최근 출시된 고급 음성 모드 알파를 구동하는 생성 AI 모델이다. 음성뿐만 아니라 텍스트와 이미지 데이터로 훈련된 최초의 모델로 관심을 끈 바 있다.
그러나 최근 GPT-4o가 때로 이상한 방식으로 동작한다는 얘기가 나오고 있다. 즉 “이는 말하는 사람의 목소리를 흉내 내거나, 대화 중간에 무슨 내용인지 모를 소리를 내지르는 것과 같다”는 것이다.
주변이 시끄러울 때 음성모드 ‘이상 반응’
오픈AI 스스로도 AI모델의 장․단점과 위험도에 대한 조사를 기록해온 새로운 ‘레드 팀’ 보고서를 공개하고 있다. 이에 따르면 오픈AI는 앞서 언급한 음성 복제와 같은 GPT-4o의 몇 가지 ‘괴상한’ 특성을 공개했다. 특히 시끄러운 도로 위와 같이 ‘배경 소음이 높은 환경’에서 사람이 GPT-4o와 대화할 때가 대표적인 경우다. 이런 경우 GPT-4o는 갑자기 사용자의 음성을 흉내내기도 한다. 이에 대해 전문가들의 원인 분석도 엇갈리지만, 대체로 모델이 ‘잘못된 음성’ 자체를 이해하지 못하는데서 나온 부작용으로 해석된다.
이런 현상을 발견한 오픈AI는 일단 고급 음성 모드에선 그런 기묘한 현상이 일어나지 않도록 했다는 얘기다. 오픈AI는 “회사 차원에서 이런 행동에 대한 ‘시스템 결함 완화책’을 추가했다”고 밝혔다.
그러나 GPT-4o는 또한 사용자가 특정 방식으로 프롬프팅을 하면 불안하거나 부적절한 ‘비언어적 발성’이나, 에로틱한 신음소리, 폭력적인 비명, 총소리와 같은 괴상한 소리를 내기도 한다. 오픈AI는 이에 대해 “(그런 소리를 낼 때는) 이 모델이 (사용자의) ‘음향 효과를 생성하라’는 요청을 거부하는 것이란 증거가 있지만, 일부는 그럼에도 사용자의 요청이 실제로 받아들여진다”고 인정했다.
저작권 침해 가능성도 배제 못해
특히 GPT-4o는 음악 저작권을 침해할 수도 있다는 지적이다. 아마도 오픈AI가 이를 방지하기 위한 필터를 구현하지 않았다면 저작권 침해가 일어났을 것이란 지적이다. 보고서에서 오픈AI는 “GPT-4o에게 고급 음성 모드의 제한된 기능(저작권 침해 등)을 위해 노래하지 말라고 지시했다”고 밝혔다. 듣기만 해도 알아볼 수 있는 유명 아티스트의 스타일이나, 톤, 음색을 복사하지 못하도록 하기 위해서다.
이는 오픈AI가 저작권 침해를 하지 못하도록 GPT-4o를 훈련했다는 것을 의미하지만, 확실하지는 않다는 지적이다. 나아가서 오는 가을에 GPT-4o를 더 많은 사용자들에게 출시할 때 그런 제한을 해제할 지는 불분명하다
보고서는 “GPT-4o의 오디오 모달리티를 설명하기 위해 오디오 대화 기능을 작동하도록, 특정 텍스트 기반 필터를 업데이트하고, 음악이 포함된 출력을 감지하고 차단하는 필터를 구축했다.”고 적었다. 또한 “본사는 광범위한 관행에 따라 오디오를 포함한 저작권이 있는 콘텐츠에 대한 요청을 거부하도록 GPT-4o를 훈련했다.”고 덧붙였다.
그러나 오픈AI 스스로 “저작권이 있는 자료를 사용하지 않고는 오늘날의 주요 AI모델을 훈련하는 것이 ‘불가능’하다”고 최근 밝힌 적이 있다는 점이다. 이 회사는 “데이터 제공자와 여러 라이선스 계약을 맺었지만, 허가 없이 노래 등 IP로 보호된 데이터로 훈련한다는 비난을 듣지 않기 위해 공정하게 사용하고 있다”고 주장했다.
오픈AI의 경쟁력을 감안할 때, 레드 팀 보고서는 다양한 완화책과 보호책을 통해 더 안전해진 AI 모델의 전반적인 모습을 추구하고 있음이 분명하다는 평가다. 예를 들어, GPT-4o는 말하는 방식에 따라 사람을 식별하는 것을 거부한다. 또 “이 화자는 얼마나 지적(知的)일까?”와 같은 난해한 질문에 답하는 것을 거부한다. 또한 폭력적이고 성적으로 자극적인 언어에 대한 프롬프트를 차단하고, 극단주의와 ‘자해’와 관련된 토론 등 특정 범주의 콘텐츠를 전혀 허용하지 않고 있다.
그럼에도 오픈AI, 최근 ‘구조화된 출력’ 등 업그레이드
한편 그런 일부 부작용에도 불구하고, 9일 오픈AI는 “GPT-4o 업데이트의 일환으로 사용자는 두 가지 중요한 변경 사항을 접할 수 있다”며 업그레이드를 공표했다. 즉 개발자들을더 편리하게 만들어 줄 출력을 구조화하는 기능과, 구글 제미니를 염두에 둔 가격 인하 등이다.
가장 큰 변경 사항은 API에 ‘구조화된 출력’이 도입되어, GPT-4o를 사용하는 개발자가 최종 데이터의 형식을 지정할 수 있게 된 것이다. 특히 사용자가 제공한 JSON 스키마, 데이터 정의를 위한 키워드 시스템, 구조 등을 통해 상호 운용성과 일관성을 보장할 수 있다. 구조화된 출력 시스템은 오픈AI의 기존 안전 정책에 맞게 개발되었으며, 여전히 ‘안전하지 않은 요청(프롬프팅)’을 거부한다고 강조했다.
블로그 게시물에서 MS의 애저 팀은 이에 대해 “새로운 출력 기능이 개발자의 ‘생산성 향상’에 중점을 두고 있다”고 평가했다. 오픈AI는 이 기능이 GPT-4o는 물론, GPT-4-0613, GPT-3.5-turbo-0613 이상을 포함한 모든 모델을 포함, 도구를 지원하는 모든 모델에서 작동할 것이라고 밝혔다.
