‘음성신호 전처리 감성인식’ 기술 등장, “말의 내용․맥락 배제”
음성, 표정, 행동 등 비언어적 대화 통해 심리 파악

사진은 본문과 직접 관련은 없음.
사진은 본문과 직접 관련은 없음.

[애플경제 이지향 기자]  사람의 말이나 문장으로 표현된 언어 이면에 숨어있는 소리의 크기나 세기를 분석, 감정을 읽어내는 기술이 개발되었다. 즉, 음성의 내용과 문맥을 배제하고, 오로지 음성 신호정보만을 활용한 AI기반의 ‘감성인식 음성신호’ 기술이다. 한국전자통신연구원은 “이를 위한 모델 학습 데이터의 전처리 기반 감성인식 기술을 개발했다”고 최근 공개했다.

이는 일종의 사용자 반응형 환경·상황·감성 인지 기술이다. 이를 개발하고 도메인에 적용함으로써, 교감형 상황인지 기술 분야의 핵심기술을 확보했다는 설명이다.

감성인식 기술은 비언어 기반(음성, 표정, 행동)의 대화를 통해 심리를 파악하는데 유용한 기술이다. 국제적으로도 개발이 더딘 상황이며, 아직 미개발 분야임에도 국내에서 가장 먼저 성공한 것이다.

연구원에 따르면 감성인식 기술은 ‘텍스트 기반’, ‘표정 기반’, ‘음성신호 기반’의 세가지 종류로 나눌 수 있다. 만약 그 중 하나의 모달리티만을 사용할 경우 정확성에 한계가 있을 수 밖에 없다.

이에 세 가지 모달리티를 사용하는 ‘음성신호 기반 감성인식’ 분야는 매우 유용하게 쓰일 것이란 기대다. 우선 ‘표정 정보’를 활용하지 못하는 환경에서도 효율적으로 활용할 수 있다. 또한 멀티 모달리티에서도 다른 모달리티의 부족한 부분을 보충하는 중요한 정보로 활용되고 있다. 특히 다른 모달리티에 비한 학습데이터 수가 적어 데이터의 중요성과 효용성이 더욱 높다.

그래서 “고도화된 감성기술을 응용한 개성 있는 가상의 인공지능 휴먼 에이전트를 개발하는 등 인공지능 관련 분야의 신시장을 선점, 확산할 것”이란 기대다.

이 기술은 동양인, 특히 한국인 음성을 대상으로 구축된 것이다. 이에 한국인의 음성 감성을 기존의 어떤 기술보다 정확하게 분석할 수 있다.

개발 과정에선 120명 이상의 중급 이상 전문 성우를 선정해 음성데이터를 구축했다. 일단 분노, 슬품, 기쁨 등 3가지 특성으로 분류했다. 그런 다음 감성을 표현한 발화 데이터를 10단계에 걸쳐 그 감성의 강도를 태깅하여 세분화했다.

이 기술은 감정 인식, 의도 파악 등의 기술을 필요로 하는 교육, 의료, 공공복지, 산업분야에서 몰입감과 실재감을 높일 수 있는 감성 반응형 응용 서비스 기술로 활용할 수 있을 것으로 보인다.

(사회복지 분야에선 사회적 소외계층, 청소년 상담 등 정서적 상담이 필요한 지원을 할 수 있다. 또 국방 분야에선 내무병사, 재향군인 등 군종사자의 불안도, 심리변화 추적 등 감성인지 서비스를 할 수도 있다.

산업 분야에선 고객 분석, 면접자 신뢰도 평가 등 감성 분석을 이용한 다양한 CS를 지원할 수 있다. 교육 분야에선 학습자의 반응을 분석함으로써 상호작용이 가능한 지능형 교육에이전트로 활용할 수도 있다. 특히 의료 분야에선 환자의 기분상태를 모니터링하고, 우울증이나, 치매 진단 등 인공지능 디지털 헬스케어에 유용하게 쓰일 것이란 기대다.

연구원은 특히 “영상 인식과 함께 활용됨으로써 개인화 기반의 대화 감정이나, 표정 인식, 의도 파악 등을 통해 몰입감과 실재감을 높일 수 있는 감성 반응형 응용시장에서 경쟁력이 있을 것”이라고 했다.

이에 따르면 또 인공지능 비서, 교육 등 다양한 분야의 제품에 도입해서 경제적 효과를 유발할 수 있다. 인간 감성 탐지 도구의 한 요소로 포함되어 다양한 대인 기반 용도로 쓰일 수 있다. 이 밖에도 실감 콘텐츠 친구, 상담 서비스, 교육 등 실생활과 밀접한 분야의 다양한 서비스를 제공하는 도구가 될 수 있다.

저작권자 © 애플경제 무단전재 및 재배포 금지