딥러닝 언어모델인 ‘MoBERT’ 기반의 한국어 특화 이해모델
‘MorphemePiece’ 기반, 어절을 형태소로 분할, 서브워드 토큰화
[애플경제 이윤순 기자] 사용자의 질문에 대해 정답, 또는 관련성이 높은 단락을 실시간으로 탐색하는 뉴럴 검색 기술이 개발되어 관심을 끈다. 스코어로 순위를 매긴 검색 결과를 바탕으로 단락 집합과 메타 정보를 제공한다.
전자통신기술연구원이 개발 ‘한국어 특화 이해모델 기반 뉴럴 단락 검색 기술 v1.0’이 그것이다. 이는 “넘쳐나는 디지털 정보의 바다에서 가장 중요한 기술과 정보를 효율적으로 탐색하고, 원하는 정보를 정확하게 획득할 수 있는 기술”이란 설명이다.
기술의 특징 및 장점
이 기술은 최신 딥러닝 언어모델인 MoBERT에 기반하여 뉴럴 단락 검색을 수행한다. 한국어 특화 언어모델 ‘MoBERT’는 한국어 텍스트의 문맥(구문/의미)을 학습, 다양한 응용 태스크(언어분석/기계독해/문서분류 등)에 범용 가능한 딥러닝을 위한 언어모델이다. 즉, 사람이 어절을 사용하는 형태로 학습하기 위해 형태소 원형 복원을 제외하고, 어절을 형태소로 분할하여 서브워드 토큰화한다.
또 ‘MorphemePiece’ 기반 어절의 토큰 분할, 토큰의 내용 및 위치의 이중 어텐션 계산, 토큰 마스킹 비율등을 조절하여 언어모델 학습을 한다. “특히 9B 토큰을 기반으로 일반분야 및 전문분야 대상 고품질의 최신 데이터를 수집한다”면서 “텍스트 기반 파라미터형 지식 학습을 위한 ‘MorphemePiece’ 기반 한국어에 최적화된 언어이해 모델”이라고 설명했다.
뉴럴 단락 검색을 위해 단락 단위로 구분된 컬렉션을 토큰 단위로 문맥 정보를 색인한다. 질문이 입력되면, 질문과 단락의 전체 토큰 또는 멀티-뷰 토큰을 기반으로 늦은 상호작용 연산으로 검색을 한다.
단락을 기반으로 학습된 이해형 언어모델을 사용, 임베딩 색인을 한다. 늦은 상호작용 연산 및 특정 토큰을 사용, 유사도 연산을 한 후 스코어 기반으로 순위화된 단락 집합을 검색한다.
이는 “한국어 리소스의 언어 및 의미 분석이나 지식 저장, 지능형 정보 검색 서비스에 활용될 것”이라며 또한 “RAG(Retrieval Augmented Generation)를 구성할 때 검색 컴포넌트에 사용할 수 있고, 한국어 범용 도메인 질의응답에 활용될 수 있다”고 밝혔다.
‘Non-symbolic AI’ 기반, 대형 색인 데이터 처리
뉴얼 단락 검색을 위한 인코더 학습 기술, 단락 단위 텍스트 문서 임베딩 및 색인 기술, 전체 토큰 또는 멀티-뷰 토큰 기반의 늦은 상호작용 연산 검색 기술로 구분된다.
또 검색을 위해 파인튜닝 된 인코더 모델과, 학습, 색인, 검색 엔진 및 테스트 서버 환경, 학습 및 색인 도구, 법률 도메인 학습데이터, 뉴럴 단락 검색을 위한 사용자 매뉴얼 등으로 구성된다.
한편 딥러닝 기술이 발달하면서 지난 수 십 견간 이어져온 ‘Symbolic AI’(기호주의 AI)의 한계를 넘어, ‘Non-symbolic AI’(귀납적 AI)로 패러다임을 바꾸고 있다. 이에 ‘Non-symbolic’ 기반의 다양한 인코딩 학습 방법을 통해 검색 기술이 크게 발전하고 있다.
이 기술의 핵심 기능은 텍스트 기반 빅데이터에 대한 뉴럴 색인/검색이다. 즉 ‘Non-symbolic AI’에 기반을 둔 것이기도 하다.
현재 추세는 효과적인 맥락이해를 위해 특정 토큰을 사용하여 검색하는 것 보다, 전체 토큰을 사용하여 늦은 상호작용 연산 방법으로 검색하는 경향이다. 그러나 늦은 상호작용 연산에는 큰 비용의 ‘색인 임베딩 볼륨 저장소’가 필요하다. 해당 기술은 이런 문제점을 고려, 큰 볼륨의 색인데이터를 처리할 수 있는 기술로서 다양한 환경에서도 적응력이 뛰어나다.
연구원은 “최근에는 LLM이 부상하면서 질문에 대한 응답을 생성하는데 중점을 두고 있다.”면서 “그러나 향후 LLM의 환각 현상을 극복하기 위해 검색 기술은 더욱 발전해야 할 것”이라고 강조했다. 특히 “범용 도메인에서 쉽게 적용할 수 있도록 기술을 패키징해 다양한 산업 분야의 기반 기술로 활용 가치가 높다.”는 설명이다.
