문체부, ‘고품질 한국어 말뭉치 구축 확대, 워킹그룹 운영’

GPT 이미지(사진=오픈AI)
GPT 이미지(사진=오픈AI)

[애플경제 이보영 기자] 챗GPT를 사용해본 많은 사람들은 한국어 대응이 아쉽다는 반응을 보인다. 영어권에서 개발되어 한국어 학습이 영어만큼 충분하지 않아서다. AI의 한국어 학습을 위해서는 한국어 특성을 반영한 고품질의 한국어 말뭉치가 필요하다.

이에 문화관광체육부와 국립국어원은 ‘한국어를 잘하는 K-챗GPT’ 개발을 지원하기 위해 고품질 한국어 말뭉치 구축을 확대하고, 워킹그룹 운영을 통해 현장이 필요로 하는 말뭉치를 제공할 계획이다.

2018년부터 구축된 대규모 한국어 말뭉치 37종(약 22억 어절)은, 국립국어원 말뭉치 공개 사이트(모두의 말뭉치 corpus.korean.go.kr)를 통해 오픈소스로 제공되어 한국어 인공지능 개발에 활용되어왔다.

고품질의 말뭉치는 사람이 직접 말뭉치에 한국어 분석 정보(어휘 의미, 구문, 개체명, 감성 등)를 입력하고 검수하는 과정을 거친다. 이런 과정에 비용이 많이 들기 때문에 한국어 말뭉치 제공은 스타트업의 언어자료 구축 비용을 절감하고, 이미 개발된 인공지능 기술을 고도화하는 데 기여해왔다.

2020년 8월부터 2022년 12월까지 말뭉치 이용 건수는 누적 18,089건에 달한다. 주요 활용 사례는 삼성전자 상담챗봇서비스, SK텔레콤의 언어모델 개발(SKT-AI/KoBART), ㈜코어소프트의 단어 추천, 자동 문장 생성, 퀵스페이서(Quickspacer)의 띄어쓰기 교정 모델, ㈜레이븐어스의 아동용 한글 학습 도구 ‘우왕좌왕 세종대왕’ 등이다.

문체부는 이를 위해 현장에서 인공지능 개발 수요를 즉각 파악할 수 있는 워킹그룹을 3월부터 8월까지 운영한다. 워킹그룹은 인공지능과 말뭉치 구축 전문가, 학계 전문가, 문체부와 국립국어원 연구원으로 구성된다. 이는 ▲ 인공지능 기술 개발에 필요한 말뭉치 수요를 파악하고, ▲ 2027년까지 한국어 특성을 반영한 고품질 말뭉치 10억 어절 구축 계획을 세울 예정이다.

올해 문체부는 한국형 챗GPT가 빠르게 개발될 수 있도록 25종, 약 1억 2천만 어절의 고품질 한국어 말뭉치를 구축해 배포한다.

문체부는 “또한 인공지능 언어모델이 한국어를 잘 이해하고 생성하는지, 한국의 사회문화 지식을 갖추고 있는지를 검증하는 평가시스템을 시범 운영할 계획”이라며 “공신력 있는 평가 기준과 평가용 데이터 세트를 구축해 인공지능이 한국어 문장을 제대로 이해했는지 혹은 사진을 보고 생성한 문장이 얼마나 정확한지 등을 검증할 수 있도록 지원한다.”고 밝혔다.

저작권자 © 애플경제 무단전재 및 재배포 금지