단순 정보 너머 ‘개체’ 간 논리적 관계 추론, 문맥 파악
주어진 정보 ‘개체’와 ‘관계’로 구조화, 맥락 이해, 지식 추론
그래프 데이터 모델링, 지식 추론, 지식 그래프 임베딩 방식
LLM과 지식 그래프 접목…‘하이브리드 AI’ 방식 각광

AI의 '환각'을 시사하는 이미지. (출처=셔터스톡)
AI의 '환각'을 시사하는 이미지. (출처=셔터스톡)

[애플경제 전윤미 기자] ‘지식 그래프’가 AI 환각을 막을 수 있는 유용한 대안으로 부상하고 있다. 대형언어모델(LLM)로 대표되는 AI모델의 가장 큰 취약점은 ‘환각’이다. 이는 AI의 효용성은 물론, 기술 개발이 정당성마저 위협하는 요인이 되고 있다. 이에 업계와 전문가들 일각에선 정보와 텍스트를 구조화하는 ‘지식 그래프’((Knowledge Graph)의 중요성을 한층 강조하고 있다.

다소 과장하면, 지식 그래프야말로 ‘환각’을 최소화하거나, 예방함으로써 AI기술의 효용성과 정당성을 회복시킬 대안이란 의견이다.

한국전자통신연구원, 정보통신기획평가원 등 연구기관들도 “대형 언어 모델과 ‘지식 그래프’의 결합은 더 신뢰성 있는 AI 모델을 개발하는 데 있어 핵심 전략으로 부상하고 있다”며 이 분야 기술 발전에 앞장서고 있다.

신뢰성 있는 AI모델 전략으로 주목

전자통신연구원의 김말희 한국전자통신연구원 책임연구원은 기술 연구보고서에서 “(‘환각’ 등) 사실관계의 정확성을 검증, 개선하기 위한 ‘SimpleQA 벤치마크’ 등의 장치가 있지만, 그것만으로는 LLM의 환각 문제를 근본적으로 해결할 수 없다”면서 “개체 간의 관계를 그래프라는 구조를 이용해서 명확히 정의하는 ‘지식 그래프’를 활용함으로써, LLM이 정확하고 신뢰성 있는 정보를 참조할 수 있도록 돕는다”며 의의를 설명했다.

나아가서 “단순한 정보 제공을 넘어 개체 간의 논리적 연결을 기반으로 자동화된 추론과 설명 가능성을 제공할 수 있게 된다”는 것이다.

사진은 구글 검색창으로 본문과 직접 관련은 없음. 지식그래프는 이같은 정보롤 구초적으로 체계화한다.(출처=구글)
사진은 구글 검색창으로 본문과 직접 관련은 없음. 지식그래프는 이같은 정보롤 구초적으로 체계화한다.(출처=구글)

‘지식 그래프’는 일단 주어진 정보를 노드(개체)와 엣지(관계)로 구조화한다. 다시 각 정보와 데이터 사이의 관계와 맥락을 이해하고, 새로운 지식을 추론하는 방식이다. 쉽게 말해 단어나 문장이 또 다른 단어나 문단과 어떤 유기적 관련이 있는지를 추론, 문맥과 구조적인 상황을 파악할 수 있게 하는 원리다.

그래서 “다양한 정보원(데이터 소스)으로부터 정보를 수집, 연결하고, 상관 관계와 의미 있는 연관성을 추론함으로써 복잡한 프롬프트에 답변하는 방식”이다.

애초 이는 구글의 ‘셀프 어텐션 메커니즘’을 좀더 확장, 발전시킨 개념으로 이해할 수도 있다. ‘셀프 어텐션 메커니즘’은 문맥이나 문단에 대한 구조적, 입체적 이해 능력을 개선하기 위한 것이다. 즉, 문장 내의 각 단어가 또 다른 단어들과의 관계를 스스로 파악, 사고하고 계산함으로써, 전체 문맥 속에서 갖는 좀더 정확하고 포괄적인 함의를 파악할 수 있도록 하는 것이다.

구글은 나중에 개발한 ‘BERT’를 적용, 좀더 정밀한 쌍방향 학습 방식을 적용, 문맥 이해도를 큭 높이는데 성공했다.

‘지식 그래프’의 작동 원리

지식 그래프는 이를 좀더 구조적으로 체계화시킨 개념이다. 일단 주어진 데이터나 정보 등을 개체(entity), 그리고 각 정보 간의 관계(relationship), 그 결과 추리할 수 있는 속성(attribute)으로 구분했다. 즉, ‘노드, 엣지, 속성’ 개념으로 정리, 의미상으로 구조화한 것이다. 다시 말해 각 개체, 그리고 개체가 전체 구조와 갖는 관계를 ‘주어(subject)-서술어(predicate)-목적어(object) 트리플 형태로 저장하는 것이다. 이렇게 저장된 구조를 통해 논리적 추론과 연관성 분석을 할 수 있다.

이런 ‘지식 그래프’는 그 작동 기술에 따라 몇 가지 방식으로 나뉜다. 즉 △그래프 데이터 모델링(graph modeling), △지식 추론(knowledge inference), △지식 그래프 임베딩(Knowledge Graph Embedding: KGE) 등이 그것이다.

그 중 △‘그래프 데이터 모델링’ 방식은 지식 그래프의 구조를 설계하는 과정을 말한다. 그런 과정에서 ‘온톨로지’와 같은 도구를 활용한다. ‘온톨로지’는 특정 도메인의 핵심 개념인 ‘개체’와, 이들 간의 관계, 속성을 명확히 정의하고 구조화한 지식 모델이다. ‘지식 그래프’가 작동하도록 하는 틀을 만드는 과정이라고 할 수 있다.

다음으로 △‘지식 추론 기술’은 온톨로지에 기반을 둔 추론이다. 즉 ‘만약 A와 B라면, C’라는 등의 규칙 기반의 추론이나, 기계 학습 기반 추론을 제공한다.

세 번째로 △‘지식 그래프 임베딩’은 그래프 데이터를 벡터로 변환해 기계학습 모델에서 지식 그래프 정보를 활용할 수 있도록 한다. 이를 통해 추천시스템, 질의응답시스템 등의 AI 응용에서 성능을 향상시킬 수 있다.

그 가운데는 ‘TransE’나, ‘DistMult’ 등과 같은 전통적인 지식 그래프 임베딩 기법이 있고, GNN(Graph Neural Network) 기반의 ‘지식 그래프 임베딩’ 방식이 있다. ‘R-GCN’, ‘CompGCN’, ‘GAT’ 등이 그런 것들이다.

그러나 전자통신연구원은 “이런 ‘지식 그래프’는 구조화된 데이터를 기반으로 신뢰할 수 있는 정보를 제공하지만, 비구조화된 자연어 문서를 처리하는 것에 한계가 있다”면서 “또한 구축 비용이 많이 들고 범용으로 사용되기 어렵다”고 지적한다. 이에 비해 LLM은 ‘지식 그래프’를 참조, 한층 정확하고 근거 있는 응답을 생성할 수 있다.

AI '환각'을 시사하는 이미지. (사진=셔터스톡)
AI '환각'을 시사하는 이미지. (사진=셔터스톡)

‘하이브리드AI’의 3가지 방식

다만 ‘지식그래프’는 LLM을 통해 자연어 질의를 처리하고, 사용자 친화적인 인터페이스를 제공할 수 있다. 그래서 LLM과 ‘지식 그래프’를 결합한 ‘하이브리드 AI’ 기술도 주목받고 있다. 이는 지식그래프와 LLM의 장점, 즉 데이터 기반의 학습 능력과 명시적 구조화된 지식표현, 추론 능력을 동시에 활용해 효율적이고 설명 가능한 AI를 구현하는 접근 방식이다

양자를 효율적으로 활용하는 ‘하이브리 AI’ 중 첫 번째는 ‘지식 그래프 주입’(KG-enhanced LLMs) 방식이 있다. 이는 처음부터 지식 그래프 정보를 LLM 학습과정에 접목하는 것이다. LLM의 입력, 학습, 생성 단계에 투입, 모델의 성능을 크게 높이는 방법이다.

이를 위해 지식 그래프의 ‘개체’나 및 ‘관계’ 정보를 벡터 형태로 표현한 ‘임베딩’을 LLM 입력에 통합한다. 또 외부 메모리 구조를 통해 필요할 경우 관련 지식을 검색, 활용할 수도 있다. 지식 기반 문장을 자동 생성해 학습 데이터를 증강함으로써 더욱 풍부한 사전학습을 가능하게도 한다.

앞서 ‘지식 그래프 주입’과는 반대로 LLM을 지식 그래프에 접목, 이를 증강하는 방식도 있다. LLM의 자연어 처리 능력을 이용, 지식 그래프를 구축하거나 확장하는 것이다. 이 방식에서는 LLM이 학습 텍스트에서 개체, 관계, 속성 등을 자동으로 추출, 지식 그래프를 생성한다. 이를 통해 기존 그래프를 보완하거나 정제하며, 기존 지식을 바탕으로 새로운 사실을 추론할 수 있다.

세 번째는 통합 모델(Joint Model) 방식이다. 이는 LLM과 지식 그래프를 하나의 통합된 시스템으로 결합, 상호작용과 공동 추론이 가능하도록 설계하는 방법이다. 전형적인 ‘하이브리드 아키텍처’로서, 이들 두 가지 기술이 정보를 주고받으며 상호 보완적인 기능을 한다.

이같은 ‘지식그래프’ 방식은 AI모델의 ‘환각’을 최소화하거나, 사실상 차단하는 역할을 함으로써 이미 산업 각 분야에서 유용하게 활용되고 있다는 관측이다.

저작권자 © 애플경제 무단전재 및 재배포 금지