일어나지 않은 행위, 미리 적대적 생성 기법으로 가상데이터 추출
신용정보원, ‘대출, 연체 등 원천데이터와 가상데이터 섞어 확률 예측’
“표본수 불균형시엔 오류 가능성…편견․차별 유발하는 부작용도” 지적

[애플경제 이보영 기자] 인공지능 학습용 데이터를 생성하고 검증하는 GAN(Generative Adversarial Network, 생성적 대립 신경망) 기술이 보급되면서, 다양한 형태의 가상데이터가 만들어져 활용되고 있다. 이는 실제 데이터가 부족하거나, 아예 불가능할 경우 매우 유용한 방법이다. 행위가 이뤄지지 않은 상태에서 미래에 그 가능성이나 확률을 예측하는데는 적격이다.

예를 들어 부도가 날 가능성을 예측하는 것도 그런 경우다. 즉, 자금을 빌린 사업자나 개인이 향후 일정 기간 후 부도를 낼 가능성을 예측하는 것이다. 실제로 한국신용정보원은 일찌감치 GAN 기술을 활용한 가상데이터 기법으로 부도 가능성을 측정해보는 모형을 적용하기도 했다.

이 기관은 ‘부도 예측을 위한 인공지능 학습용 데이터 생성 및 검증 기법 : GAN() 기반 재현 데이터 중심으로’라는 프로젝트를 통해 실제로 가상데이터를 생성, 부도 가능성을 예측했다. 이를 위해 우선 GAN 모델을 적용하여 실제 통계와 유사하게 부도를 낸 사람의 통계 특성을 최대한 유지하도록 하고, 가상데이터를 생성했다.

그 결과 “실제 원천 데이터가 아닌 재현된 가상 데이터를 생성하여 대출, 연체 등 신용정보를 인공지능 학습을 통해 미리 예측하는 기법과 검증 절차를 제시했다”는 얘기다.

생성자와 판별자 대립, 실제 가까운 데이터 샘플 추출

특히 신용정보원은 GAN에 의한 가상데이터 생성 과정을 상세하게 전하고 있어 눈길을 끈다. 이에 따르면 생성자(Generator)와 판별자(Discriminator)가 대립하는 딥러닝 생성 모델인 GAN구조로 인해 실제에 가까운 데이터 샘플을 만들어 낼 수 있었다.

이때 ‘생성자’는 실제에 가까운 샘플을 생성하는 것을 목표로 하고, ‘판별자’는 생성자가 만들어낸 샘플을 실제 데이터와 비교하여 실제인지, 가상인지 여부를 잘 구별해낸다. 처음 판별자는 실제 데이터와 생성자가 생성한 샘플을 학습하고 그 중 실제 데이터를 찾아낸다. 다음엔 판별자가 학습을 통해 판별한 결과를 생성자가 다시 학습하여 전 단계보다는 좀더 실제에 가까운 샘플을 생성한다. 이런 단계를 자꾸 반복하다보면, 마침내 판별자까지도 실제 데이터와 생성한 샘플을 구분하지 못하는 수준에 이르게 된다. 즉, 실제로 부도가 난 사례 혹은 데이터와, 가상으로 부도를 낸 ‘가짜 데이터’가 흡사하게 되는 것이다.

원천데이터, 학습 데이터셋, 테스트 데이터셋으로 분리

신용정보원은 이같은 가상데이터를 생성하기 위해서 먼저 “원천 데이터를 준비하고, 그 다음 재현 학습(가상) 데이터를 생성한 후, 생성된 데이터를 검증 · 평가하는 단계를 거쳤다”고 전했다.

이때 가상 데이터를 만들기 위하여 원천 데이터, 즉 실제 상황에 관한 데이터로부터 적정 크기의 표본을 추출해냈다. 원천 데이터는 신용정보원이 관리하는 비식별 조치된 국내 제조업 개인사업자들의 실제 신용정보(대출, 연체, 부도 등) 데이터를 활용했다. “이로부터 원천 학습 데이터셋 5만 레코드를 추출했다”는 설명이다.

다음으로 재현(가상) 데이터를 생성하는 과정에 들어갔다. 이를 위해 역시 GAN 모델을 적용하여 가상 학습 데이터를 만들어냈다. 이때 추출한 실제 원천 데이터를 학습 데이터셋(90%), 테스트 데이터셋(10%)으로 분리했다. 테스트 데이터는 검증 단계에서 모델 성능 평가를 위해 사용하기 위한 것이다.

또 학습 데이터셋 중 부도 차주에 관한 기록이 전체의 50%가 되도록 GAN 모델을 적용해 재현 데이터를 생성했다. 그런 다음 부도를 낸 적이 없는 정상 차주의 실제 데이터와, 부도를 낸 차주를 가정한 가상 데이터를 각각 5:5의 비율로 구성하여 새로운 학습 데이터를 생성했다. 다만 이런 비율로 구성할 때도 “하나의 클래스(정상 차주 혹은 부도 차주)에 속하는 표본의 수가 다른 표본 수(부도 차주 혹은 정상 차주)에 비하여 현저하게 적은 경우, 클래스 사이의 경계 영역이 왜곡되고, 분류자의 학습 성과가 저하된다”고 지적했다.

신용정보원은 “이같이 GAN 모델을 통해 재현(가상)데이터를 생성하고 평가한 결과, 신용정보를 포함하는 인공지능 학습 데이터로 가상 데이터를 충분히 활용할 수 있음을 시사한다”고 결론지었다. 이때 생성된 재현 학습 데이터는 실제 데이터셋의 분포 특성을 대체로 유지하고 있고, 실제 데이터셋과 유사하거나 개선된 분류 성능을 보였다. 또 실제 데이터셋에서의 데이터 불균형 문제에 따른 낮은 재현율을 개선하는 효과를 보였다는 평가다.

데이터 항목, 특성 복잡할 경우 오류도

그러나 한계도 있다. 즉 “실제 데이터를 구성하는 특성이나, 정보 항목(features)이 많고 데이터 구조가 복잡할 경우, 실제 데이터와의 유사도 및 분류 성능이 떨어질 수 있다”면서 “재현(가상)데이터의 생성 과정(computing)에서 시간이나 자원 소요가 비현실적으로 크게 증가할 수 있다”는 지적이다.

또 파산 위험이나 범죄 가능성 등을 예측하는데 이를 적용할 경우 사회적 부작용을 일으킬 수도 있다. 차별이나 혐오 등의 소지도 배제할 수 없고, 가상데이터의 정확성이 떨어질 경우는 엉뚱한 결과로 인해 선의의 피해자를 만들 수도 있다. 그래서 “이른바 데이터에 의한 차별과 폭력을 뜻하는 ‘대량살상수학무기(WMD)’의 폐해를 우려할 수도 있다”는 지적이다.

그럼에도 불구하고 “향후 보다 효율적인 데이터 생성 기법 연구와 정교한 신뢰성 검증을 거쳐 금융산업에서 가상데이터를 더욱 많이 활용할 필요가 있다”는 의견이다.

저작권자 © 애플경제 무단전재 및 재배포 금지