면접 대상자, 학생 평가 방식, 환자 차트 내용 등 ‘편향’
백인 사용자보다 흑인 사용자, ‘비표준 방언’에 대한 ‘오류’ 많아
“AI 모델에 새 아키텍처, 방언, 액센트 등 지속적 업그레이드”

AI음성인식모델 이미지. (출처=언스플래쉬)
AI음성인식모델 이미지. (출처=언스플래쉬)

[애플경제 전윤미 기자] 아직 드물긴 하지만, 일부 기업에선 신규 직원을 뽑을 때 AI가 일차적인 면접을 보게하는 경우도 있다. 지원자의 녹음된 답변을 자동으로 기록하고 채점하는 AI 기반 면접 도구를 활용하기도 한다.

AI식별 능력, 대상 따라 큰 차이, ‘부정확’

그러나 최근 일련의 조사 연구에 의하면 사람 음성과 언어에 대한 AI의 식별 능력은 대상에 따라 크게 차이가 있거나, 부정확하다는 평가도 잇따른다. 특히 액센트가 있는 영어 단어나, 비표준 방언을 이해하는 데 어려움을 겪고 있다. 그로 인해 채용, 평가 또는 임상 기록에서 편향된 결과를 초래할 수 있는 사례가 발생하기도 한다.

AI가 면접 대상자나, 학생 평가 방식, 의사가 환자 차트에 기록하는 내용 등이 편향될 수가 있다. 특히 주요 음성-텍스트 변환 AI모델은 백인 사용자보다 흑인 사용자에게 훨씬 더 많은 오류를 발생시킨다.

본래 AI 기반 음성 인식 모델은 수백만 개의 오디오 샘플로 훈련된 음향 모델을 사용하는 자동 음성 인식(ASR)을 통해 음성을 텍스트로 변환한다. 일부 기업은 AI를 사용하여 면접 답변을 필사하고 분석, 명확성, 키워드 또는 감정을 기준으로 지원자의 채용 점수를 매긴다. 학교에서는 구술 읽기 시험, 수업 자막 및 언어 학습에 음성 AI를 사용하기도 한다. 때론 AI 도구가 진료 중 대화를 듣고 진료 기록을 작성한다. 미국의 경우 법원에서도 유사한 음성 인식 AI시스템을 사용해 소송 절차를 기록하고 있다.

“의료, 형사 사건에서 오판, 잘못된 정보로 이어질 수도”

다양한 연구에 따르면 그런 과정에서 AI 시스템은 일부 흑인 화자나 ‘표준 영어’를 사용하지 않는 사람들의 말을 잘못 해석하는 것으로 나타났다.

‘AI Now Institute’는 ‘엑시오스’에 “이런 AI시스템이 형사 사건에서 오판이나 잘못된 정보 전달로 이어질 수 있다고 말했다. ”AI가 불평등의 패턴을 복제하는 상황“이란 얘기다. 더욱이 이런 AI모델이 ‘누가 면접이나 의료 서비스 접근권을 얻을지’를 결정한다면, 불평등과 차별을 심화시킬 위험이 있다는 지적이다.

그럼에도 불구, 이런 AI 시스템이 적절한 테스트나 감독 없이 배포되고 있는 현실이다. 그 때문에 여전히 사람들의 말을 잘못 알아듣는 경우가 많다는 것이다.

특히 의료나 형사 사법처럼 오류가 빚을 위험이 큰 분야에서 이같은 AI 음성 모델의 문제가 심각할 경우, 그 결과는 치명적이다. AI모델의 가장 큰 문제는 겉보기엔 모든 사람에게 동일한 것처럼 보인다는 점이다. 즉, ”AI음성 모델을 사용하기 때문에 공평해 보인다는 점“이라고 했다. 하지만 AI모델이 본질적으로 편향되어 있다면, 차별과 편견, 오류로 인해 사람에 따라선 치명적 결과를 초래할 수 있다.

AI모델 앱 화면. (출처=언ㅅ플레쉬)
AI모델 앱 화면. (출처=언ㅅ플레쉬)

실제로 ‘포춘’의 조사에 의하면, 포춘지 100대 기업들 중 다수가 지원자가 사전에 녹음한 답변을 자동으로 기록하고 채점하는 AI 기반 면접 도구인 ‘하이어뷔’(HireVue)를 사용한다.

‘하이어뷔’의 데이터를 사용, 지원자가 추가 면접을 받을지 또는 채용될지가 결정되는 것이다.

‘하이어뷔’에 대해 ‘포춘’은 “모든 지원자가 외모, 인종, 나이 또는 배경이 아닌 직무 관련 역량과 기술만을 기준으로 평가되도록 돕는다”고 말했다. 특히 개발자들은 ‘데이터 세트’를 확장하고, ‘억양 특징’을 테스트하고 있다고 밝혔다. 오픈AI, 아마존, 구글과 같은 기업들은 더욱 다양한 음성 샘플을 수집하기 위한 프로젝트를 시작했다. 그 결과 “시스템이 상당히 개선되고 있다”고 했다.

사전 녹음 자동 기록·채점 AI도구 ‘하이어뷔’ 사용

실제로 일부 병원에서는 AI에 의한 필사본을 인간 검토자가 재검토하기도 한다. 대표적인 사례로, 오픈AI의 음성 인식 모델인 ‘휘스퍼’는 최근 68만 시간의 다국어 및 멀티태스킹 데이터를 학습했다. 그 결과 특정 악센트, 배경 소음, 전문 용어 인식을 개선했다.

이처럼 기존 AI 음성 인식 모델엔 새로운 아키텍처, 방언, 액센트 전반에 걸친 지속적인 테스트, 그리고 위험을 이해하는 다양한 개발자들이 필요하다는 지적이다.

그러나 “단순히 더 많은 데이터를 수집한다고 해서 모든 문제가 해결되는 것은 아니다”는게 전문가들의 조언이다. 단지 일회성 데이터 세트 수정이 아니라, 다양한 음성 유형에 대한 지속적이고 장기적인 학습과 데이터 수집이 중요하다. 특히 AI 시스템에 대한 지속적인 평가를 요구하는 ‘제로 트러스트 AI’ 정책을 요구해야 한다는 목소리다.

결론적으로, AI의 ‘청취 차별’은 음성 자체를 차별의 새로운 영역으로 만들 위험이 있다는 지적이다.

저작권자 © 애플경제 무단전재 및 재배포 금지