트랜스포머 AI기술로 실용화, 기계와의 소통을 ‘인간의 언어’로 실현
세계 주요 시장 연평균 16%씩 성장, 국내서도 ‘한국어’ 기반 기술 확산

사진은 본문과 직접 관련은 없음.
사진은 본문과 직접 관련은 없음.

[애플경제 김홍기 기자] 자연어 음성인식(Speech-to-Text)기반의 기술이 디지털 비대면 시대에 인간과 기계의 소통과 자동화의 핵심 기술로 자리잡고 있다. 특히 자연어 음성인식 AI 기술은 스마트폰이나 자동차, 가전을 비롯한 다양한 서비스로 진화하며 일상 생활 속에 빠르게 적용되고 있다.

최근 ‘한국전자통신연구원 김상훈 책임연구원’은 ‘자연어 음성인식 AI 산업 동향 및 시사점’ 보고서에서 “최근 자연어 음성인식은 종단형(End-to-End) 트랜스포머 인공지능 모델과 수 만 시간의 음성데이터 학습으로 실환경 인식율이 대폭 개선되어 자연스러운 발화 음성이 가능함에 따라 단순 명령어에서 대화형 AI 서비스로 확산되고 있다”고 밝혔다.

이에 따르면 본래 자연어 음성인식은 “자유발화 음성을 가독성 있는 텍스트로 자동변환하는 인공지능 기술”이며, “머신과의 커뮤니케이션을 인간의 언어로 실현하는 궁극의 인터페이스 또는 인터랙션 기술”이다. 즉 음성인식은 “말을 알아 듣고 이해할 수 있는 능력”인 ‘청각지능’에 해당하는 인공지능 핵심 기술이다.

김 연구원에 따르면 최근 자연어 음성인식은 딥러닝 모델의 최적화, 비지도 학습방식 개발, 멀티모달(Multi-Modal) 융합 등 기술적 발전이 급속하게 이루어지고 있다. 이는 또 ‘종단형 음성인식’ 즉, 트랜스포머 기반 종단형 음성인식이 최적 모델로 꼽히며, 대부분 음성인식 시스템의 기반을 이루고 있다는 설명이다.

그러나 종단형 음성인식의 경우, 학습에 소요되는 데이터가 기존 방식보다 몇 배 이상 필요함에 따라 데이터 증강(Data Augmentation), 자가 지도학습(Self-supervised) 기반의 ‘비지도 학습’ 등 새로운 방법론도 제기되고 있다. 또한 즉 단일지능만으로 인간의 지능을 이해하고 표현하는데 한계가 있다는 자각에서 다중감각 AI의 일종인 ‘멀티모달 복합지능’도 부상하고 있다. 이는 “인간의 지능확장과 유사하게 인식하고 표현하는 감각지능을 결합하여 범용 인공지능을 지향하는 것”이란 얘기다.

현재 자연어 음성인식 기술에 관한 미국, 중국 등 세계 주요시장은 연평균 성장률(CAGR) 16%로 2027년까지 약 70~80억 달러로 성장할 것으로 예상되고 있다. 김 연구원이 인용한 ‘Global Industry Analysts, Inc’는 2020∼2027년 동안에 연평균 10.8% 성장할 것으로 전망된다. 또 2020년엔 13억 달러에서 2027년에는 27억 달러에 달할 것으로 예측된다.

국내 또한 자연어 기반 음성인식 기술이 빠르게 발달하고 있다. 즉, “한국어 위주 콜센터 녹취, 회의록 전사, 외국어 교육 등 틈새 시장에서 사업을 영위하는 추세”라는 얘기다. 그 중 ‘인공지능 스피커’가 가장 빨리 대중화되고 있다. 구글, 애플, 마이크로소프트, 아마존 등 글로벌 기업들은 인공지능 스피커를 경쟁적으로 자사 플랫폼 기반 생태계 구축, 대중화를 견인하고 있다. 2011년 인공지능 비서인 애플 ‘시리’를 처음 선보인 이래 아마존 알렉사, 마이크로소프트 코타나, 구글 어시스턴트 등 인공지능 스피커 기반 서비스가 줄을 잇고 있다.

국내에서는 2016년 SKT 누구를 시작으로 삼성 빅스비, KT 기가지니, 네이버 클로버, 카카오 카카오i가 한국어 위주 서비스를 출시했다. 특히 알렉사 ‘스킬’, 구글 ‘액션’이라는 플랫폼이 제공되어 누구라도 알렉사를 이용한 다양한 서비스를 개발할 수 있게 되었다. 현재 알렉사 ‘스킬’의 경우, 10만 개 이상 서비스를 보유. 국내에서도 SKT ‘누구 디벨로퍼스’, ‘기가지니 인사이드’ 등과 같은 오픈 플랫폼을 제공하고 있다.

가정 내 AI 허브 경쟁도 치열하다. 즉 “인공지능 비서(스피커, 스마트TV)를 가정내 모든 가전 기기를 연동할 수 있는 AI 허브로 만들려는 경쟁이 벌어지고 있다”면서 “그 과정에서 가전업체, 포털업체, 통신업체간 주도권 싸움이 치열하다”는 진단이다. 음성으로 제어되는 스마트홈 서비스 구현을 위해 통신사나 포탈업체는 인공지능 스피커를 AI 허브로 치환한다.

또 LG전자나 삼성전자 등 가전업체는 스마트 TV가 AI 허브가 되는 서비스 구현에 주력하고 있다. KT 기가지니의 경우, 한국전자통신연구원으로부터 영어, 중국어, 일본어 음성인식 기술을 이전받아 국내외 10여개 호텔에 다국어 인공지능 스피커 서비스를 제공하고 있다.

김 연구원은 “가까운 시일 내에 메타버스 기반 신규 비즈니스 창출이 폭발적으로 증가할 것으로 예상됨에 따라 자연어 음성인식 핵심기술의 선도적 개발이 필요하다”면서 “특히 디지털 생명체와의 자연스러운 대화가 매우 중요해질 것임에 따라 영상/오디오 융합 ‘멀티모달’을 이용하여 자연어 음성인식을 고도화해야 한다”고 조언했다. 특히 “물리적인 제약이 사라짐에 따라 외국인과의 언어소통이 매우 중요해질 것으로 예상되고, 모든 언어 간 실시간 통역이 가능하도록 다국어 통번역 기술의 고도화가 필요하다”고 덧붙였다.

저작권자 © 애플경제 무단전재 및 재배포 금지