“특히 2025년부터 증가, 2030년엔 대부분 합성데이터로 학습”
개인정보보호, 저작권 보호 등 영향, ‘현실을 미리 시뮬레이션할 수 있어’
편향, 정보왜곡, 품질 등은 문제, ‘표준화, 법적, 제도적 정비도 중요’

데이터센터 서버 모습. (출처=퓨처)
데이터센터 서버 모습. (출처=퓨처)

[애플경제 전윤미 기자] 금년 2025년부터는 합성데이터가 크게 확산되어 활용될 것이란 전망이다. 이는 2030년경엔 실제 수집, 확보된 데이터보다는 합성데이터를 사용해 AI를 학습한 비율이 훨씬 많아질 것이란 ‘가트너’의 예상과도 맥을 같이하는 시각이다.

한국지능정보원도 최근 과학기정통부와 함께 한 연구조사에서 “합성데이터 기술이 개인정보 보호와 LLM 기반의 생성AI가 지닌 편향성을 해소하는 유용한 대안으로 주목받고 있다”며 역시 같은 시각의 진단을 하고 있다. 이 기관은 특히 “이를 공개된 데이터셋과 결합해 활용하는 사례가 더욱 늘어날 것으로 예상된다”고 덧붙여 눈길을 끈다.

‘데이터 주권’ 강화 풍토도 작용

특히 국내외적으로 개인정보 보호를 위한 규제와 데이터 주권(국경 밖 유출 차단) 정책이 확산되면서 폭넓은 데이터 수집과 활용이 한층 제약을 받을 수 밖에 없다. 이미 EU는 6년 전부터 GDPR 등을 통해 규제를 강화하고, 우리나라도 규제가 미흡하다는 비판을 받긴 하지만 최근 국회를 통과한 ‘인공지능기본법’에서도 고위험AI와 개인정보유출과 남용을 규제하는 추세가 강화되고 있다.

이같은 시대 흐름을 거스르지 않으면서도 합법적으로 데이터 부족이나 저작권 침해 우려를 해소할 수 있는 수단으로 합성데이터가 날로 주목받고 있다. 예를 들어 EU GDPR의 경우 고객 정보, 거래 기록, 계좌 지불 또는 거래 데이터 등 개인 데이터를 내부 부서나 외부 파트너 간에 사용하고 공유하는 것은 완전히 금지된다. 앞서 가트너는 “합성 데이터를 통해 기업 등은 개인정보보호 정책의 70% 가량을 충족시킬 수 있을 것”이라고 파악했다.

그 동안 마스킹나 익명화 등과 같은 프라이버시 보호 내지 강화 기술(PET)이 통용되었으나 이는 한계가 있다. 이는 결국 데이터의 품질을 낮추고, 익명화를 무력화하며 신원을 파악할 수도 있어 개인 정보 유출 위험도 적지 않다는 지적이다.

이에 다른 프라이버시 강화 기술인 ‘차등 프라이버시’나, 합성데이터 기술이 부상하게 된 것이다. 이는 완벽한 익명화로 평가되며, 그 어떤 데이터 보호를 위한 규제에도 저촉되지 않는다 .

의료, 금융, 제조업 등에 널리 확산

앞서 한국지능정보원은 “AI모델은 의료 제조, 교육 등을 망라하며, 대규모·고품질 데이터를 필요로 한다”면서 사례를 들었다. 대표적으로 의료 부문에선 환자 개인정보를 직접 쓰지 않고 가명이나 합성된 환자 데이터로 알고리즘을 학습한다. 또 진단의 정확성과 신뢰성 확보를 위한 데이터를 수집하되, 이를 합성데이터로 활용하기도 한다.

제조업 분야나 로보틱스 부문에서도 합성데이터가 유용할 것으로 보고 있다. 특히 사람이 작업하기엔 위험하거나 극한적 환경에서 로봇을 가동하고, 그 동작을 검증하기 위한 수단으로 합성데이터를 사용할 수 있다. 즉, 가상 시뮬레이션이나, 디지털 트윈을 구축할 경우 합성데이터를 활용할 수 있다.

금융계에서도 합성데이터가 급속히 확산되고 있다. 고객의 금융 정보를 보호하고, 사기나 이상거래를 탐지하는 모델을 고도화하기 위해 합성데이터가 활요되고 있다. 탐지 모델에 학습할 실제 고객 데이터 대신에 가상의 합성데이터를 사용, 모델 정확도를 높이는 것이다.

(사진=픽사베이)
(사진=픽사베이)

합성 데이터는 물리적 세계에서 자연스럽게 생성된 ‘실제’ 데이터가 아니다. 알고리즘을 사용, ‘실제’ 데이터와 동일한 통계적 속성을 유지하는 ‘인공’ 내지 가상 데이터라고 할 수 있다.

산업계에선 합성 데이터를 사용, 현실세계에서 재현할 수 없는 상황을 시뮬레이션할 수 있다. 앞으로 일어날 수도 있는 거래와 지불, 인출, 구매 등에 관한 가상의 합성된 학습 데이터를 통해 AI 알고리즘을 구축할 수 있다.

금융권, 자금세탁, 고객 패턴 예측 등에 긴요

특히 은행이나 금융 기관에게 합성데이터는 매우 요긴할 수도 있다. 금융기관은 흔히 각종 금유사고나 사기, 자금 세탁을 정확하게 예측하는 데 어려움을 겪는다. 이런 사고나 사건은 자주 일어나는 일이 아니기 때문에 이에 관한 실제 데이터를 확보하기 어렵다. 이런 경우 소수의 실제 데이터를 기반으로 합성데이터 세트를 구축, 있을 수 있는 사기나 사고, 자금세탁 등의 패턴을 복제하고, 예측 모델을 학습하도록 하는 것이다.

특히 자금 세탁 탐지에 매우 유용하다. 익명의 합성데이터 기반의 여러 은행의 데이터 세트를 당국에 전송, 병합된 데이터세트로 자금세탁 등을 식별해낼 수 있다. 즉 데이터를 유출할 염려없이, 합성데이터를 통해 이런 탐지와 식별이 가능한 것이다.

금융기관 뿐 아니다. 일반 기업이나 엔지니어, 데이터 과학자 등도 머신러닝 알고리즘을 학습하는 경우를 비롯, 딥 러닝 모델을 개선하는 등 다양한 목적으로 활용된다. 특히 이는 실제 데이터와 매우 유사한 고품질을 보장하므로, 작업 효율성도 높다. 그러나 “무엇보다 중요한 점은 개인 정보를 유출할 우려가 없이, 데이터 보호 규정을 준수하면서 효율적으로 업무를 수행할 수 있다”는 것이다.

‘데이터메이션’은 특히 “합성데이터 세트는 기존 데이터 세트에는 없는 특성을 포함하도록 (인위적으로) ‘조정’할 수 있다”면서 “기존 데이터로는 불가능했던 방식으로 훨씬 더 많은 제어 능력을 확보할 수 있다”고 강조했다.

합성 데이터를 통해 계좌를 개설하고 대출을 요청하는 등 향후 예상되는 고객 패턴을 예측할 수 있다. 자사와 고객 간의 상호작용을 분석하고, 향후 전개될 전체 프로세스를 미리 시뮬레이션할 수 있다.

한국지능정보원은 “그에 따른 합성데이터에 대한 표준화·법제 정비도 가속화될 것으로 보인다”고 짚었다. 즉 “합성데이터가 실제 데이터를 충분히 대체할 수 있는지, 편향이나 정보 왜곡이 발생하지 않는지에 대한 데이터 품질과 신뢰성에 대한 검증이 필요하다”고 했다.

이에 따르면 합성데이터를 활용해 데이터 편향을 보완하거나 검증·테스트 환경을 구축하는 흐름이 늘고 있긴 하다. 그러나 여전히 “품질 평가나 윤리적, 법적 기준은 미비한 상태”라는 지적이다.

저작권자 © 애플경제 무단전재 및 재배포 금지