“노드와 노드 연결하는 엣지로 구성된 데이터 구조”
메시지패싱, 서브그래프․이웃 노드 선별, 임베딩 이슈, 손실함수 적용 기법 등
CARE-GNN, PC-GNN, FRAUDRE, GTAN 등 “오픈소스로 공개”
[애플경제 전윤미 기자] 금융사기를 탐지하기 위해 머신러닝 및 딥러닝 기술을 활용하는 연구가 활발히 이루어지고 있다. 최근에는 특히 ‘그래프 신경망(Graph Neural Network: GNN)’ 기법이 주목받고 있다. 이는 금융 거래를 그래프로 표현, 그 구조적 특징을 활용해 다양한 패턴을 탐지할 수 있는 방법이다.
여러 연구 중에서도 특히 최근 임선규 금융결제원 과장이 공개한 연구보고서는 매우 깊이있으면서도 그 원리를 상세히 분석, 소개하고 있어 눈길을 끈다.
임 과장은 GNN의 개념을 설명하기 위해 “노드(node 또는 vertex)와 노드 간의 연결을 나타내는 엣지(edge)로 구성된 데이터 구조”라며 별도 ‘그림’을 통해 이해를 돕고 있다. 이에 따르면 노드는 개체 또는 개념을 나타내며, 엣지는 노드 간 상호 작용이나 관계를 나타낸다. 따라서 “엣지는 방향성이 있거나(directed) 없을(undirected) 수 있다”면서 “이런 구조의 그래프는 사기(또는 이상) 탐지, 소셜 네트워크 분석, 교통 예측, 추천 시스템 등 다양한 응용 분야에서 활용되고 있다.”고 전했다.
GNN, “여러 신경망 계층으로 구성”
그에 따르면 GNN은 그래프 구조의 데이터를 효과적으로 학습하기 위한 딥러닝 모델의 유형이다. GNN은 노드나 엣지의 피처(feature)를 인식, 그래프에서 이들 정보를 전파하고, 노드 또는 엣지의 임베딩을 학습함으로써 분류, 회귀, 클러스터링 등 다양한 작업을 수행한다. 다시 말해 그런 기능을 통해 이상 행위나 사기 유형 등을 탐지해내는 것이다.
GNN은 여러 신경망 계층(neural network layer)으로 구성된다. 그래서 각 계층을 통과할 때마다 노드 또는 엣지의 임베딩을 업데이트하면서 학습을 하게 된다.
임 과장은 이 대목에서도 또 다시 별도 개념도를 그려보이면서 “만약 분류(classification) 작업이라면 ‘그림’과 같이 그래프의 노드 또는 엣지의 임베딩을 분류 작업에 적합하도록 학습한 후 마지막에 최종 분류를 위한 신경망 계층을 추가 학습, 탐지 작업을 수행할 수 있다”고 소개했다.
그의 설명에 의하면 GNN은 노드 또는 엣지의 임베딩을 학습하기 위해 일단 메시지 패싱(message passing) 프로세스를 사용한다. 메시지 패싱을 통해 GNN의 여러 계층을 거치면서 이웃한 노드 또는 엣지가 정보를 교환함으로써 서로의 임베딩 업데이트에 영향을 미친다. 이는 ‘집계’(aggregation)라고도 표현된다.
GNN에서 메시지 패싱에 의해 노드의 임베딩이 업데이트된다. 즉 사기 유무를 판단하기 위한 업데이트라고 할 수 있다. 탐지를 위해 각 노드는 인접한 이웃 노드의 정보를 활용, 자신의 임베딩을 업데이트한다.
다양한 사기 수법에 따라 대응 기술도 4가지 유형을 제시하고 있다. GNN 중에서도 우선 ‘CARE-GNN’은 사기꾼의 위장을 고려한 메시지 패싱을 강화했다. PC-GNN은 데이터 불균형을 완화하기 위해 서브 그래프와 이웃 노드를 선별, 선정하는 기법이다.
‘FRAUDRE’는 그래프 불일치와 데이터 불균형 이슈를 완화하는 임베딩 기법과 손실함수를 적용한 것이다. 제안했다. 또 ‘GTAN’은 시간 그래프를 구축하고, ‘어텐션 메커니즘’으로 시간대별로 사기 패턴을 탐지하는 것이다.
메시지 패싱 강화 ‘CARE-GNN’
우선 CARE-GNN은 사기꾼의 위장 행위에 대응하여 메시지 패싱을 강화한 모듈을 제시하고 있다. 만약 사기꾼이 위장 행위를 하는 상황에서 기존 GNN 기반 사기 탐지와 같이 메시지 패싱을 수행하면, 이를 회피하기 위해 사기꾼은 피처를 위장함으로써 의심스러운 속성을 감춘다. 또 ‘관계 위장’으로 상이한 관계가 그렇게 보이지 않도록 ‘평탄화’될 수 있다.
이에 “CARE-GNN에 의해 MLP(multi-layer perceptron) 기반 지도(supervised) 학습으로 노드 간 유사도를 측정하는 기법이 필요하다”면서 “그 과정에서 ‘레이블 고려 유사도 측정’ 모듈이 노드의 피처를 중심으로 유사한 이웃 노드를 찾아 탐지한다”는 것이다.
PC-GNN, “데이터 불균형 완화”
사기꾼은 또 수많은 정상 사용자와 연결, 위장하므로 피처 또는 레이블 기반 유사도 기법으로 식별이 어렵다. 또 이들은 유사한 연결 패턴을 갖고 있지만, 패턴 식별을 방지하기 위해 상호 연결(점선)은 피한다. PC-GNN은 이런 경우를 탐지하기 위한 것이다. 즉, 노드 및 엣지를 선별(pick)하고, 이웃 노드를 선정(choose)하는 과정을 반복하는 것이다.
“사기꾼 식별을 위해 서브 그래프에서 중복된 연결 정보를 필터링하고 이웃을 선정한 것”이며 “여기서 구한 임베딩을 결합한 노드의 최종 임베딩으로 탐지해낸다”는 설명이다.
FRAUDRE, “데이터 불균형과 그래프 불일치 완화”
‘FRAUDRE’ 기법은 이같은 피처 불일치와 함깨 사기꾼의 피처는 정상 사용자와 유사하다는 점에 주목한 기법이다. 이에 이들 사이의 임베딩을 구분할 수 있도록 모델을 학습한 것이다.
특히 ‘사기 감지 그래프 합성곱 모듈’을 구사하기도 한다. 이는 이웃 노드 간 차이를 표현하기 위해 그래프의 다양한 토폴로지를 임베딩한 것이다. ‘FRAUDRE’는 또 다중 관계를 가정하므로, 토폴로지가 다양하다. 그래서 “이 모듈은 두 개의 그래프 합성곱 계층을 사용, 이웃 노드의 다양한 관계 정보를 집계하고, 가중합함으로써 정상 사용자와 사기꾼 사이의 차이를 더욱 확연하게 보여준다”는 것이다.
임 과장은 “이같은 금융사기 탐지 모델들은 이미 오픈소스로 공개되어 있다.”면서 “따라서 금융사기 탐지에 관심이 있다면 ‘YelpChi’나, 아마존 등의 공개된 데이터셋과 각 모델의 소스코드를 사용, 금융사기 탐지 실험을 쉽게 시도해 볼 수 있다.”고 권했다.
