AI와 광학문자인식(OCR) 기반, 원문 이미지를 텍스트로 번역
6천개 한자 인식, 검출 모델, 한자 서순 정렬 등, ‘음가정보로 한글로 옮겨’
[애플경제 이윤순 기자] 흔히 어려운 한문과 한자로 된 고서는 전문가가 아니면 해독하기 어렵다. 최근에는 인공지능(AI)과 광학기술 등을 이용해 한문 고서를 수월하게 해독 내지 판독해낼 수 있는 기술이 개발되어 눈길을 끈다.
한국전자통신연구원이 개발한 ‘AI 기반 한문 고서 OCR 기술’은 AI와 광학문자인식(OCR: Optical Character Recognition)을 기반으로 원문 이미지 데이터로부터 텍스트로 옮길 수 있는 기술이다.
3가지 모델과 알고리즘, 기술의 핵심
이는 크게 세 가지 모델과 알고리즘이 핵심이다. 우선 고서의 한자 위치 정보(x, y, width, height)를 찾는 인공지능 검출 모델을 포함하고 있다. 또 기계가 읽을 수 있는 유니코드 기반 텍스트 정보로 바운딩 박스 내의 한자 이미지를 전환, 제공하는 AI한자 인식 모델 기술도 있다. 한문 고서를 사람이 읽는 순서(우종서)에 따라 서순을 정렬하는 알고리즘도 포함되어 있다.
그 중 서순 정렬 알고리즘은 하나의 문자에서 근접한 문자 위치를 찾아 위에서 아래로, 우측에서 좌측 방향으로 문자의 순서를 정렬하는 기술이다. 서순정렬 알고리즘에서 본주와 세주가 혼재되어 있는 문장의 경우 세주를 괄호로 구분한다.
한자 검출 및 인식 모델은 한국지능정보사회진흥원이 운영하는 AI통합 플랫폼이 ‘AI HUB’의 공개 데이터와, 자체적으로 구축한 데이터를 사용하여 학습되었다. 이를 통해 “6,000자 이상 인식이 가능하다”는 설명이다.
이같은 인식을 통해 추출한 최종 디지털 텍스트 결과는 AI 기반 한자 검출 모델, 한자 인식 모델을 통해 텍스트로 변환한다. 또 근접문자 탐지 기반 서순정렬 알고리즘을 통해 ‘우종서’순에 따라 텍스트의 순서를 정렬하여 도출한다.
해당 기술은 한문 고서의 한자를 인공지능으로 검출, 인식된 한자들의 텍스트 정보를 서순정렬, 제공하거나 출력한다. 예측 확률순에 따라 6순위까지의 텍스트 후보군을 도출하는 것도 특징이다. 음가 정보도 제공되어 한글로 옮기는 작업을 지원할 수 있다.
이는 요약하면, ▲6000자 이상의 한자 자형을 인식할 수 있는 한자 인식 모델 ▲본주와 세주의 한자들을 검출할 수 있는 한자 검출 모델 ▲인공지능 한자 검출 및 인식 결과를 사용하여 한문 고서 내 한자 서순 정렬 등이 핵심이다.
또 “본주와 세주가 혼재된 한문 고서 이미지에서도 본문열과 세주열 영역을 분리하여, 각각의 영역 내에서 서순을 정렬하고, 본주와 세주의 영역별 순서 정렬이 가능하게 했다”는 설명이다. 특히 자형들 사이의 폭이 좁은 상태에서도 서순을 정렬하여 한자 인식 결과를 도출할 수 있다.
“국내 고서 수백만종, 한자 인식 번역 자동화” 기대
이같은 기술 개발의 배경에 대해 연구원은 “한문 고서는 각종 역사물, 전통문화, 문화재의 용도, 훼손된 문화유산의 복원을 위한 정보 제공 등 다양한 우리나라의 주요 역사 문화를 알려주는 중요한 역사 기록물로서 그 내용을 추출하는 한자 인식 및 번역 작업은 계속되고 있다”면서도 그 한계를 지적했다.
이에 따르면 한문 고서는 국립중앙도서관 등에서 약 300만 점을 보유하고 있으나 현재는 보관만 하고 있는 상태다. 일부 고서 보유 기관에서는 고서의 원문 이미지 제공 서비스가 실시되고 있으나, 한자를 잘 알지 못하는 일반인을 위한 한자 인식 서비스 기술이 필요한 실정이다.
한문 고서들의 내용을 추출하기 위하여 번역 전문가들이 있지만, “현재는 노동집약적인 개별 자형 판별 작업이나 전산 입력 과정이 필수적이다보니, 이를 대체할 수 있는 자동화 기술이 필요하다”는 지적이다.
특히 현대언어의 서순과 달리 ‘우종서’ 기준을 따르는 한문 고서는 본주와 세주를 분류하여 서순이 진행되어야 하는 까다로운 특성을 갖고 있다. 이에 맞는 고서 번역 기술이 절실하다는 얘기다. 그래서 “이 기술은 한문 번역 종사자들의 한문 고서 한자 텍스트 변환 작업을 돕고, 이본대조나 교감대조 작업 지원 플랫폼으로 활용할 수 있을 것”이라고 했다.
또 △온라인 한자 교육 플랫폼이나 △한자 OCR로 활용할 수 있고, △고문헌 번역 작업 내 단순 노동 비중을 줄이거나 업무 효율성을 강화할 수 있다. 나아가선 “고서 번역 작업의 가속화를 통한 역사 고증으로 문화 콘텐츠 제작 시 역사 왜곡을 방지할 것으로 기대한다”고 덧붙였다.
