자연어나 모국어 언어 모델 성능 개선과 향상 기해
미국 이미지넷, GLUE, 우리도 KLUE, KorQuAD 등
[애플경제 김홍기 기자]
AI리스크가 커지는 등 인공지능의 오류와 오용에 의한 문제도 날로 심각해지고 있다. 그런 AI리스크를 방지하기 위한 기술과 대책도 다양해지고 있지만 그것만으론 한계가 있다는 지적이 많다. 이에 원천적으로 인공지능의 오류나 리스크를 줄이거나 방지할 수 있는 데이터군이라고 할 수 있는 ‘벤치마크 데이터셋’의 중요성이 특히 강조되고 있다.
그런 가운데 한국정보사회화진흥원의 우상근 책임연구원이 최근 ‘AI 리포트’에서 “우리나라에 특화된 분야의 인공지능 서비스(한국어 음성 인식 등) 수준을 높이기 위해선 벤치마크 데이터셋을 통한 경쟁·협력을 통해 인공지능 성능 체계를 높여가야 한다”며 다양한 분석을 가하고 있어 눈길을 끌고 있다. 이는 국내에선 보기 드물게 벤치마크 데이터셋 생태계의 종류와 구조, 특성을 상세하게 분석하고 대안을 제시한 것이어서 의미가 있다는 평가다.
우 연구원에 따르면 벤치마크 데이터셋은 개발자나 AI관계자들이 공통된 기준으로 인공지능 정확도를 평가하고 경쟁할 수 있는 기반이다. 즉 공통된 기준으로 AI성능을 측정하므로, 인공지능 성능 개선을 위한 세계 각국 인공지능 연구원들 공통의 모델을 제공하는 기반이 되고 있다. 현재 우리나라를 포함해 국제적으로 자연어 이해, 이미지 분류, 얼굴인식 등 다양한 종류의 벤치마크 데이터셋이 존재한다. “국내에서도 최근 언어 모델 전문가들이 협업을 통해 벤치마크 데이터셋을 구축한 바 있다”는 우 연구원의 얘기다.
이에 따르면 현재 세계적으로 대표적인 벤치마크는 미국의 이미지넷, GLUE 등이 있으며, 우리나라에도 한국어 언어 모델을 평가하기 위한 KLUE 등이 있다. 그 중 2007년 스탠포드 대학, 프린스턴 대학에서 처음 구축한 이미지넷은 클라우드소싱 방식으로 이미지에 이름(개, 고양이, 비행기)을 붙이는 라벨링 방식이다. 현재 2만2천여개의 범주로 분류한 1,400만장의 이미지 데이터셋을 공개하고 있다.
우 연구원의 ‘AI 리포트’는 또 언어모델의 성능을 측정키 위한 미국의 GLUE와 슈퍼글루( SuperGLUE)도 부각시켰다. 그에 따르면 GLUE 벤치마크는 자연어 이해 성능을 평가하기 위해 산업계·학계가 협업하여 구축한 데이터셋이다. 이는 “전 세계 인공지능 연구원들의 참여를 유도하여 언어모델 성능 향상에 기여한 핵심 인프라”임을 강조하는 한편, “뉴욕대, 워싱턴대, 딥마인드 등이 협업하여 구축한 것으로 모두 11개의 과제로 구성되어 있으며, 전반적인 자연어 이해 성능을 평가할 수 있는 데이터셋”이라고 설명했다.
리포트’에 따르면 GLUE의 목적은 다수 연구원의 자발적인 참여를 유도하여, 언어 이해 모델 연구를 촉진하고 범용적이고 강건한 언어 분야 인공지능 발전을 가속화하는 것이다. “전 세계 인공지능 연구원들이 참여·경쟁·협업을 통해 언어모델 성능을 향상하여, 1년 만에 인간 수준을 뛰어넘는 성과를 달성했다”는게 우 연구원의 평가다
또 GLUE 벤치마크 공개 후 1년이 채 안되어서 인간 수준을 넘어선, 난이도가 향상된 ‘SuperGLUE’ 벤치마크가 등장했다. 이는 애초 GLUE를 구축한 당사자들 뿐만 아니라, 페이스북까지 합류한 것으로 10개의 태스크로 구성하여, 난이도가 향상된 언어모델의 성능을 측정할 수 있게 한 것이다.
우리나라도 이 분야에서 나름의 성과를 거두고 있다. ‘리포트’에 따르면 한국어 언어모델을 평가하기 위한 벤치마크 KLUE는 모두 8개의 과제로 구성되어 “한국어 모델 발전의 초석 역할을 할 것”이라는 전망이다. 8개 과제는 △문장 분류 △관계 추출 △문장 유사의 정도 △의존 구문 분석 △자연어 추론 △기계 독해 △개체명 인식 △대화 상태 추적 등이다. 이 외에도 한편 LG CNS에서 구축 한 것으로 한국어 언어모델 질의응답 성능을 평가할 수 있는 KorQuAD 데이터셋도 관심을 모으고 있다.
우 연구원은 “우리의 경우는 자연어 이해 분야(텍스트)에 KLUE 벤치마크를 구축한 것과 유사하게 한국어 음성 인식 분야에도 벤치마크 데이터셋을 구축하는 등 다양한 분야에서 경쟁·협력을 할 수 있는 환경을 마련하는게 중요하다”고 제안했다. 이를 통해 음성-텍스트 변환, 화자 분리, 방언 인식, 감정 인식, 음성 합성(텍스트 → 입 움직임) 등을 해낼 수 있어야 한다는 주문이다. 또한 “우리나라에 특화된 데이터셋이 아니더라도 인공지능 분야에서 집단지성 등 상호 협력을 통해 난제를 해결하기 위해 벤치마크 데이터셋을 구축 및 공개하는 것도 바람직하다”고 주문했다.
또 모델을 원활하게 공유하는 것도 중요하다는 지적이다. “인공지능 연구원들이 경쟁적으로 제출한 모델을 서비스 개발자들이 간단한 파일럿 테스트 등 아이디어 검증 실험에 쉽게 활용될 수 있도록 해야 한다”면서 “특히 개인 동의하에 고성능의 모델 및 코드를 공유할 수 있는 체계를 구축하여, 서비스 개발자들이 인공지능 모델을 쉽게 활용하여 파일럿 테스트를 진행할 수 있도록 하는게 중요하다”는 주문이다. 즉 “다양한 모델이 공개되면 인공지능 이해도가 낮은 서비스 개발자들도 모델을 활용하여 파일럿 테스트로 다양한 시도를 하게 되므로, 창의적인 기술과 서비스가 탄생할 수 있다”는 판단이다. 이 대목에서 우 연구원은 “공개된 얼굴인식 모델을 기본으로 활용하여, 마스크 착용 여부를 식별하는 기술”을 예로 들었다.
한편 ‘AI 리포트’에 따르면 이미지 분류의 오류율이 26% 수준이던 시절, AlexNet 딥러닝 알고리즘이 등장하며 인공지능 분야의 패러다임을 급격히 전환시킨 바 있다. 애초 2010년 28% 오류율이었던 것이 다음 해인 2011년 2% 정도 개선하는 수준에 그쳤다. 그러나 AlexNet을 통해 전년 대비 10% 수준까지 개선했고, 이후 모든 개발자와 연구원이 딥러닝을 활용하기 시작했다. 이후 이미지넷 데이터셋을 활용한 챌린지에서 인공지능 연구원의 적극 참여하면서 현재는 이미지 분류 정확도를 98.8%까지 개선했다.
비영어권 국가들도 현재 모국어의 언어모델 성능을 평가하고 연구역량 결집을 위해 각각 모국어 벤치마크 데이터셋 구축을 활발히 하고 있다. 중국을 비롯해 프랑스, 인도, 러시아, 인도네시아 등이 그런 경우다. 이에 “우리나라도 언어 인공지능(자연어처리) 분야 드림팀을 구성하여, 민간의 엔지니어들이 자발적으로 데이터셋과 리더보드를 구축해냈다”고 우 연구원은 밝혔다.
