‘설명 가능한 AI’, 모델의 국소별․전역별로 다양한 설명 기법 ‘주목’
출력 영향력 기울기로 계산, 입력 단어의 다음 단어 예측 연관성
단어 품사나 단어 간 관계 등의 학습 정도 등을 측정

안전하고 보안과 개인정보를 보호하는 설명가능한 AI (XAI)의 설명 기법이 새삼 주목을 받고 있다. 사진은 본문과 직접 관련은 없음.
안전하고 보안과 개인정보를 보호하는 설명가능한 AI (XAI)의 설명 기법이 새삼 주목을 받고 있다. 사진은 본문과 직접 관련은 없음.

[애플경제 전윤미 기자] 이른바 설명가능한 인공지능(XAI)의 중요성이 강조되고 있다. 즉, 초거대 언어 모델의 안전하고 올바른 사용을 위해서라도 복잡한 모델에 설명성을 부여하는 것이 중요하다는 전문가들의 지적이다. 그렇다보니 XAI를 구현하기 위한 방법론에 대한 관심도 높다.

XAI를 위한 인공지능 설명은 그 대상이 되는 입력의 범위(scope)에 따라 국소(local)기법과

및 전역(global) 설명 기법으로 나눈다는게 많은 전문가들의 견해다. 이에 따르면 만약 AI에 대한 설명으로 단일한 입력을 해석할 수 있다면 국소 설명이고, AI 모델의 전반적인 판단 이유를 설명할 경우는 전역 설명이다.

카이스트, 국소설명과 전역설명 기법 분석

최근 국소설명과 전역설명의 기법을 상세히 분석, 소개한 카이스트에 따르면 판단 결과에 어떤 입력 특성이나 인과적 분석이 영향력을 미쳤는가, 혹은 모델 전체의 경향성이나 시각화 방법에 의해 판단 결과가 도출되었는지 등 분석 방법에 따라 여러 가지 기법이 존재한다.

그런 점에서 특히 국소설명 중에서도 ▲기울기 기반 기법과 ▲어텐션 기법, 그리고 전역설명 가운데 ▲은닉 상태 프로빙 기법을 선별적으로 소개, XAI 방법론에 대한 이해를 돕고 있는 카이스트의 연구결과가 눈길을 끈다.

고기혁_카이스트 사이버보안연구센터 팀장은 국소 설명 ‘특성 기반(feature-based) 설명’으로 분류되는 기울기 기반 기법, 어텐션 기법, 그리고 전역설명의 ‘프로빙’ 설명 방법 중 ‘은닉 상태 프로빙’을 별도로 선별해 소개하고 있다.

‘질의응답의 적절성을 기반으로 기울기 도출’

그에 따르면 우선 ▲기울기 기반 설명(gradient-based explanation)은 입력의 각 요소(특성)가 모델의 출력을 도출하는 데 끼치는 영향력의 정도를 기울기로 계산하는 방법이다. 이를 위해 서로 다른 알고리즘을 사용하여 입력 요소 별 기울기를 계산하고, 그 크기에 따라 중요한 입력 요소와 중요하지 않은 입력 요소를 구분한다.

고 팀장은 “이와 동일한 원리로 자연어 처리 태스크를 수행하는 언어 모델에 대해서도 기울기 기반 설명을 적용할 수 있다.”면서 “주어진 질의에 대해 적절한 답을 생성하는 질의응답(question-answering) 태스크에서 기울기 기반 설명을 사용하여 언어 모델이 질의사항을 잘 이해하였는지를 표시한다”고 소개했다.

그는 영향도 값에 따라 질의문의 핵심 단어를 진한 색상으로 나타냄으로써 언어 모델이 질문의 주요 요소를 잘 파악하였는지 여부를 설명하는 이미지를 통해 이를 설명하기도 했다.

‘어텐션 가중치’ 모델 설명에 대한 찬․반 논쟁도

역시 국소설명을 위한 특성기반 설명 가운데, ‘어텐션 기반 설명’ 기법은 주어진 문장을 바탕으로 순차적으로 다음 단어를 생성하는 모델에 적용된다. 즉, “첫 입력 단어부터 마지막 단어까지 순차적으로 훑어가며 연산했던 기존의 메커니즘이 가지는 단점을 보완하기 위해 발명된 메커니즘”이란 설명이다.

모든 입력 단어가 다음 단어의 예측에 어느 정도 연관되어 있는지를 ‘어텐션 가중치(attention weight)’로 계산하되, 이처럼 계산된 값으로 모델이 어떻게 작동하는지를 설명할 수 있다.

특히, “트랜스포머 구조에서는 ‘셀프 어텐션’ 구조로 동일한 문장에 대해 여러 레이어에 걸쳐 반복적으로 어텐션 값을 계산, 각 레이어마다 어텐션 가중치를 통한 설명이 가능하다.”는 것이다.

업계에서도 설명가능한 AI 개발의 중요성이 부각되고 있다.
업계에서도 설명가능한 AI 개발의 중요성이 부각되고 있다.

고 팀장은 어텐션 메커니즘을 처음 제안한 바다노(Bahdanau) 등을 인용, “영어-프랑스어를 번역하는 언어 모델에 대해 어텐션 가중치를 기반으로 영어 및 프랑스어 단어의 대응성을 설명한 바 있다”고 전했다.

즉, 두 개의 서로 다른 문장에 대해 어텐션 가중치에 따른 상관 관계를 기반으로 초거대 언어 모델의 작동 원리를 시각화하는 도구를 개발했다. 이를 활용해 모델이 가지는 성적인 편향성(bias)을 탐지할 수 있었다는 얘기다.

다만, 그에 따르면 일부 연구자들은 어텐션 가중치가 설명으로써 사용될 수 있는지에 대해 근본적인 의문을 제기한 것으로 알려졌다. 이들은 “어텐션 가중치가 진정 언어 모델이 수행하는 NLP 태스크에 대한 설명으로 작동하기 위해서는 먼저 기울기 기반의 설명과 어느 정도 일치해야 한다”면서 “ 중요 어텐션 가중치를 임의로 바꿈으로써 모델의 출력이 바뀌어야 한다”고 주장했다. 그러면서 “어텐션 기반 설명 기법은 이들 중 어느 조건도 만족하지 못하였기 때문에 설명으론 부적합하다”는 주장을 폈다.

그러나 또 다른 연구자들은 “어텐션 기반 설명을 부정하는 논문의 일부 실험 자체가 잘못 실행되었다”고 반박하기도 했다. 이처럼 어텐션 가중치가 설명으로서 적합한지 여부에 대한 논쟁은 현재까지도 계속되고 있다.

‘학습 태스크 이외 지식 학습 여부’도 중요

전역설명은 시각화 설명과 프로빙 설명이 있다. 카이스트 고 팀장은 그 중 프로빙 설명에 속하는 ‘은닉 상태 프로빙’ 기법을 들어 전역설명 내지 XAI의 설명 기법을 소개하고 있다.

그에 따르면 트랜스포머 기반의 언어 모델은 입력되는 단어 임베딩에 대해 반복적으로 셀프 어텐션 메커니즘을 적용, 기계번역, 질의응답 등 주어진 태스크에 알맞는 표상을 학습한다. 특히 ‘프로빙’의 개념이 적용된다. ‘프로빙’은 “여러 레이어에 걸쳐 연산되는 중간 표상 혹은 중간 임베딩(embedding)이 학습에 주어진 태스크 이외의 일반적 지식을 학습했는가를 확인하는 과정”이라고 했다.

그 중 언어 모델에 대한 ‘은닉 상태 프로빙’은 단어의 품사나 단어 간의 관계 등 언어적 특징을 어느 정도 학습하였는지를 프로브하는 것이다. 이를 위해 언어 모델에 존재하는 단일 혹은 복수 레이어의 중간 임베딩 값을 사용하여 확인하고자 하는 지식을 테스트한다.

이를 위해 고 팀장은 BERT 언어 모델의 중간 임베딩을 사용, 셰프(chef)와 모드(made) 간의 관계를 예측할 수 있음을 보여준다. 그는 “이같은 언어적 프로빙(linguistic probing) 외에도 언어 모델이 일반적 사실을 학습하였는지를 테스트하는 사실적 프로빙(factual probing) 등 다양한 지식을 테스트하기 위한 프로빙이 존재한다.”고 덧붙였다.

저작권자 © 애플경제 무단전재 및 재배포 금지