부도기업과 정상적인 기업의 가상 데이터, ‘GAN’으로 검증
대출이나, 연체 등 신용정보를 인공지능 학습기법으로 분석
[애플경제 이보영 기자] 한 기업체가 부도가 날 확률이 어느 정도일까. 내가 거래하는 업체가 과연 부도날 가능성이 어느 정도일까. 최근 이런 우려나 궁금증을 해소할 만한 ‘기업체의 AI 부도 예측 모델’이 등장해 관심을 끌고 있다. 한국신용정보원은 인간의 신경망 구조를 적용한 GAN(적대적 생성 신경망, Generative Adversarial Network)) 기술을 활용해 기업체의 부도 가능성을 정확하게 판별하는 모델을 공개했다.
우선 한 기업체가 부도날 가능성이 있는지를 판별하기 위해선 그런 부류의 기업체들이 갖는 보편적 데이터와, 그와 반대로 견실한 기업체의 데이터를 바탕으로 이를 AI 알고리즘으로 생성할 필요가 있다. 신용정보원은 그런 작업을 위해 우선 개인사업자의 부도 예측에 활용되는 신용정보 학습데이터를 생성, 검증하는 방식을 구사했다.
신용정보원측은 “개인사업자 부도 예측을 위한 인공지능 학습 모델을 구축할 때 필요한 양질의 학습데이터를 확보하고 데이터 불균형 문제를 해소하는 것이 중요했다”고 밝혔다. 이때 데이터 불균형이란 예측에 이용될 ‘부도 가능성이 있는 기업체’의 자료와 정상적인 기업체의 자료의 수가 크게 차이날 경우 생기는 오류를 방지하기 위한 것이다.
다만 데이터 라벨링 과정에선 일단 “데이터 불균형 해소를 위해 실제 (부도 기업이나 정상적인 기업의) 원천 데이터가 아닌 재현된 가상 데이터를 생성하여 대출이나, 연체 등 신용정보를 인공지능 학습기법으로 검증하는 절차를 거쳤다”고 했다. 특히 그런 재현 데이터 생성을 위해 최근 이용이 활발한 GAN 모델을 주로 적용했음을 밝혔다. 그 과정에서 “생성된 학습 데이터와 그 바탕이 된 원천 자료의 통계적 분포나 유사한 정도 등을 비교함으로써 과연 이에 적용된 GAN 모델이 정확하고 유효한지를 평가했다”고 설명했다.
이때 AI학습에 쓰인 부도날 가능성이 큰 기업과, 그렇지 않은 우량 기업에 관한 원천 데이터의 정확성은 특히 중요하다. 이를 위해 신용정보원은 자체적으로 관리하는 비식별 조치(구분되고 특정되지 않은)된 국내 제조업 개인사업자들의 신용정보, 즉 대출이나, 연체, 부도 등에 관한 데이터를 활용하였다. 또한 이로부터 학습 데이터 세트 5만개의 레코드(기록)를 랜덤 방식(random under-sampling)으로 추출했다.
그렇게 재현된 데이터를 생성하기 위해 생성 기법, 즉 GAN 모델을 적용하여 학습 데이터를 만들어냈다. 그런 다음 샘플링된 실제 데이터를 놓고, 그중 데이터 세트(90%)와, 검증 단계에서 모델 성능이 정확한지를 평가하는 테스트 데이터 세트(10%)로 분리했다. 특히 신용정보원은 “GAN 모델을 적용해 학습 데이터 세트 중에서 부도를 낸 (차입금) 차주의 기록 레코드가 전체의 50%가 되도록 재현 데이터를 생성했다”고 밝혔다. 즉 정상적인 기업체의 실제 데이터와 부도른 낸 기업의 재현 데이터를 각각 5:5의 비율로 구성하여 새로운 학습 데이터를 생성한 것이다.
신용정보원은 이런 데이터 마이닝과 라벨링을 거쳐 부도날 가능성을 구체적인 수치로 측정하는 ‘검증 지표’를 만들어냈다. 우선 이를 위한 AI 학습 데이터가 정확한지를 검증하는 KS 통계량, AUC, 재현율을 다시 부도 확률을 평가하는 지표로 사용한 것이다. KS 통계량(Kolmogorov-Smirnov Statistic)은 생성된 데이터와 실제 데이터가 서로 일치하는 정도를 나타내는 통계량으로서 0에 가까울수록 차이가 없음을 뜻한다. AUC(Area Under the Curve), 즉 부도인지 정상인지를 판별하는 기준을 다시 변화시키면 그 확률이 달라질 수 있다. 이런 변동의 가능성이 적으면 적을수록, 즉 분류 성능의 측정값으로서 1에 가까울수록 데이터 지표가 정확하다.
신용정보원은 “GAN 모델에 의해 생성된 (부도 가능성을 측정하는) 재현 데이터 세트는 실제 (부도가 난 경우를 보여주는) 데이터세트의 분포 특성을 대체로 유지하고 있다”고 밝혔다. 이는 앞서 말한 KS 통계량이나, AUC 즉 실제 데이터셋과 유사하거나 개선된 분류 성능을 보이며, 실제 데이터셋에서의 데이터 불균형 문제에 따른 낮은 정확도를 개선하는 효과(recall) 등이 충족된다는 얘기다. 이에 “실제 원천 자료 및 샘플과 GAN 기반으로 생성된 재현 데이터셋을 비교할 때, 한 기업체의 부도 가능성을 정확하게 측정, 예고하는 수단으로 활용될 수 있다”는 결론이다.
