전문가들, ‘GAN 활용, 확산모델 방식, LLM 활용’ 등 추천
통계 기법 적용, 다양한 조건변수 시뮬레이션으로 품질 고도화
[애플경제 전윤미 기자] 생성AI의 가장 큰 걸림돌은 역시 데이터의 한계다. 고품질의 방대한 데이터를 기반으로 학습과 추론이 반복되면서 역시 AI의 성능도 고도화된다. 그러나 이를 위한 데이터가 한계가 있다보니, 이젠 ‘데이터는 국부’라는 표현까지 나오고 있다. 그런 가운데 그 대안으로 인공적으로 만들어진 합성 데이터가 보편화되고 있다. 그러나 합성데이터 역시 생성 기술의 정교함과 정확도에 따라 그 품질과 성능이 달라질 수 밖에 없다.
그렇다보니 최근에 각종 통계 기법을 활용하는가 하면, 아예 인공지능 기술을 사용하기도 한다. 전문가들은 그 중에서도 적대적 생성 신경망(Generative Adversarial Networks: GANs)기법과 확산 모델(diffusion model)기법, 그리고 LLM을 기반으로 하는 방법 등을 추천하고 있다.
이에 대한 연구와 분석을 토대로 최근 연구보고서를 내놓은 임선규 금융결제원 과장은 “합성 데이터는 실제 데이터의 특성만 참조해 생성된 완전히 새로운 데이터이므로, 개인 정보 침해의 우려 없이 안전하게 활용할 수 있다”고 장점을 부각하며, “특히 합성 데이터 생성 기술은 이미지, 텍스트, 수치 등 데이터 형식에 따라 다양하다.”며 이같은 방법들을 제시하기도 했다.
‘적대적 생성 신경망’(GAN) 기법
이에 따르면 우선 ‘적대적 생성 신경망(GAN)’ 기반의 방법이 있다. 특히 CTGAN(Conditional Generative Adversarial Network)는 GAN 기반의 대표적인 합성 데이터 생성 모델로 꼽힌다.
CTGAN은 사용자가 지정한 조건에 따라 데이터를 생성할 수 있어, 특정 용도나 시나리오에
적합한 합성 데이터를 생성할 수 있는 방법이다. 본래 GAN 기반 모델들은 수치로 된, 연속형 데이터를 처리하는데 주력한다. 이에 더해 “CTGAN은 ‘범주형 데이터’를 효적으로 처리하는 메커니즘을 도입했다.”는 설명이다. 이는 특히, ‘테이블’ 형태의 데이터에서 변수 유형별로 전처리 단계를 설정할 수 있다.
즉, 특정 범주형 변수에서 하나의 범주를 선택하고, 해당 범주에 포함되는 데이터를 선택, 합성 데이터를 생성한다. 이 과정을 통해 다양한 범주형 값을 반영하는 방식이다. 임 과장은 “이를 위해 통계 기법인 ‘Copula’와 GAN 기법을 결합한다”면서 “각 변수의 개별 분포와 변수 사이의 결합 분포를 분리하여 모델링한다.”고 방법을 설명했다. 그 결과 만들어진 합성데이터는 실제 데이터의 ‘통계적 특징’을 유지하면서, 변수들 사이의 복잡한 상관관계를 정확하게 반영할 수 있게 되는 것이다.
‘노이즈’ 추가·제거 반복 ‘확산 모델’ 방식
특정 데이터에 ‘노이즈’를 조금씩 추가한 다음, 노이즈를 다시 단계적으로 제거함으로써 데이터를 복원하는 과정을 거치는 방식으로 데이터가 갖고 있는 특성을 학습하는 방법도 있다. 즉 ‘확산(Diffusion) 모델’ 기반의 합성 데이터 생성 기법들이다.
임 과장은 “확산 모델은 ‘스코어 기반’(score-based) 모델로서, 대표적인 확산 모델 방식의 합성 데이터 생성 모델은 ‘TabDDPM’와 ‘STaSy’가 있다.”고 소개했다.
그러나 GAN 기반의 합성 데이터 생성 모델은 연속형, 범주형을 막론하고, 다양한 유형의 합성 데이터를 생성하는데 어려움이 있다는 지적이다. 이에 ‘TabDDPM’은 확산 모델을 도입, 연속형이나 범주형 데이터 모두를 효과적으로 처리할 수 있도록 한 것이다.
이를 위해 이는 데이터에 조금씩 노이즈를 추가, 단순한 분포로 모델을 변형한다. 이때 연속형 과 범주형 데이터를 모두 처리하기 위해 ‘TabDDPM’은 연속형 데이터에 대해선 일반적인 연속 분포로, 범주형 데이터에 대해선 이산 분포로 인코딩한다. “이 과정에서 각 유형에 적합한 최적의 확산 과정을 설정, 데이터의 특성을 유지하면서 노이즈가 추가된다”는 것이다.
이에 비해 ‘STaSy’는 이른바 자기주도 학습 기술과 파인튜닝을 활용한 방식이다. 이는 “확산 모델 기반의 새로운 합성 데이터 생성 전략”이란 평가다. 을 제안한다. 즉, 자기주도 학습은 모델이 초기 학습 단계에서는 쉬운 데이터를 학습하고, 점차 어려운 데이터를 학습하는 방식이다. 이를 통해 모델의 안정성과 학습 성능을 향상시킬 수 있다.
또한, 모델을 학습할 때 파인튜닝을 활용, 데이터 샘플링을 고도화한다. 이를 위해 사전학습된 모델을 활용, 추가 학습을 통해 모델 성능을 최적화한다. 마치 학습 모델을 재활용하는 것과도 같다.
LLM의 ‘자기 회귀’ 방식 활용도
LLM이 보편화되면서 이를 활용해 합성 데이터를 생성하기도 한다. 그 대표적인 모델이 ‘GReaT’다. 이는 LLM의 자기 회귀(auto-regressive) 방식의 생성 기법을 활용, 데이터의 특정 부분을 생성하고, 생성된 데이터에 조건을 추가해, 그 다음 부분의 데이터를 생성하는 순차적 방식을 구사한다. 데이터의 첫 번째 변수를 생성한 후, 이 변수의 값을 조건으로 두 번째 변수의 값을 생성하는 셈이다. 마치 도미노 현상과도 흡사한 모양새다.
이런 자기회귀 방식을 통해 GReaT 모델은 연속형이나 이산형 등 다양한 유형의 데이터를 분석하며, 그 의존관계를 자연스럽게 모델링할 수 있다. 특정 변수에 조건을 추가하고, 다른 변수들을 샘플링할 수도 있다. 즉, 특정 변수가 주어진 상황에서 다른 변수의 값을 모델링하는 것이다. 이에 “데이터의 일부 변수가 고정된 상황에서, 다른 변수들이 어떤 분포를 갖게 되는지 시뮬레이션하는데 유용하다”는 평가다.
다시 말해 합성 데이터 생성을 위해 사전 정의된 조건이 제시되고, 모델은 이 조건을 입력받아 텍스트로 변환한다. 그리고 최종적으로 테이블 형태의 합성 데이터가 생성되는 과정을 되풀이하는 것이다. 이는 “특정 조건들을 추가해서 합성 데이터를 생성함으로써 다양한 시나리오를 시뮬레이션할 수 있는 방식”이기도 하다.
