AI고도화 가로막는 데이터 부족 해결, ‘합성데이터’, ‘재현데이터’로도 불려
‘진짜같은 가짜’…실제 데이터 대신, 컴퓨터 시뮬레이터나 알고리즘으로 생성
“익명화, 편향 수정, 얻기 어려운 데이터 생성, ‘차세대AI’로 가기위한 통로”

메타 데이터를 이용한 데이터 거래 서비스 이미지로서 본문과는 직접 관련이 없음.(사진=씨이랩)
메타 데이터를 이용한 데이터 거래 서비스 이미지로서 본문과는 직접 관련이 없음.(사진=씨이랩)

[애플경제 김향자 기자] 인공지능의 품질, 특히 차세대 인공지능(AI 2.0)을 위해선 정확하면서도 풍부하고 보안이 보장된 데이터가 뒷받침되어야 한다. 그러나 현실적으론 늘 최적의 데이터가 부족해 어려움을 겪고 있다. 이에 최근엔 가상의 데이터, 즉 인위적으로 만들어진 ‘합성 데이터’(Synthetic Data)가 널리 확산되고 있다.

이는 실제 존재하는 데이터를 대체하는 것이다. 즉 컴퓨터 시뮬레이션이나 알고리즘을 통해 가상으로 만들어진 데이터라고 할 수 있다. 연구자에 따라선 ‘합성 데이터’, ‘재현 데이터’, ‘가상 데이터’ 등 다양한 이름으로 불리기도 한다. 대출과 신용정보 측정을 위해 한국신용정보원은 이를 ‘재현 데이터’ 혹은 ‘모의 데이터’라는 이름으로 만들어 사용하기도 한다. 또 중소기업기술정보진흥원 등에 따르면 금융과 산업 부문에 점차 ‘가상 데이터’의 개념이 접목되고 있는게 최근의 경향이다.

데이터 수량, 품질, 보안, 속도 극복 대안

다양한 연구결과와 자료를 분석해 이에 관한 이슈 브리프를 작성한 한국지능정보사회진흥원은 “데이터를 구축할 때 한계이기도 한 수량, 품질, 보안, 속도 등을 극복하기 위한 대안으로서 임의 생성된 가상 데이터”로 규정하며 최근 급부상하고 있다고 설명했다. 이 기관의 김태원․홍효진 수석연구원들은 자체적으로 ‘합성 데이터’란 명칭을 확정하면서 “저비용으로 신속하게 방대한 양의 고품질 데이터를 획득할 수 있다는 장점으로 인해 많은 기업들은 합성 데이터에 주목하고 있다.”고 전했다.

특하 이들 기관은 ‘진짜 같은 가짜! 재현 데이터’, 혹은 “‘가짜’ 데이터를 이용해 ‘진짜’ 인공지능으로”라는 식으로 합성 데이터의 효용을 설명하고 있다.

애초 AI가 정확한 결과를 얻기 위해선 엄청난 양의 데이터가 필요하고 데이터가 편향되지 않도록 할 수 있어야 하며, 데이터 개인정보 보호규정을 철저히 준수해야 한다. 또 진흥원의 김태원 수석연구원 등은 “데이터를 보다 완벽하게 익명화하고 내재된 편향을 수정하고, 다른 방법으로는 얻기 어려운 데이터를 생성함으로써 합성 데이터는 차세대AI로 가기 위한 기반을 마련할 것”이라고 기대했다.

신용정보, 부도예측 위한 가상의 데이터

나아가서 기업의 부도 예측을 위한 인공지능 학습용으로 합성(재현) 데이터를 생성하고 검증하는 기법도 실용화되고 있다. 한국신용정보원은 GAN(Generative Adversarial Network) 기반의 합성(재현) 데이터를 생성하고 있다. 이를 통해 인공지능 모형인 GAN 모델을 구축하고, 이를 적용하여 부도 차주의 실제 통계와 유사한, 재현된 학습 데이터를 생성하고 부도 가능성이나 확률 등을 사전 측정하는 것이다.

특히 이 기관의 이재근 팀장은 ‘진짜 같은 가짜 ! 재현데이터의 개념 및 활용 사례’라는 연구논문을통해 “GAN 모델을 통해 재현데이터를 생성, 평가한 결과, 신용정보를 포함하는 인공지능 학습 데이터로 재현 데이터를 활용할 수 있음을 입증했다”고 그 효용성을 확신했다. 즉 “생성된 재현 학습 데이터는 실제 데이터셋의 분포 특성을 대체로 유지하고 있고, 실제 데이터셋과 유사하거나 개선된 분류 성능을 보인다”면서 “특히 실제 데이터셋에서의 데이터 불균형 문제에 따른 낮은 재현율을 개선하는 효과를 보였다”고 밝혔다. 더욱 효율적인 데이터 생성 기법을 개발하고, 정교한 신뢰성을 간춤으로써 금융산업에서 적극 이를 활용할 수 있을 것이란 기대다.

이에 따르면 재현데이터(Synthetic Data)는 개인의 프라이버시를 보호하면서도 민감한 정보를 분석하고자 하는 연구자들에게 데이터를 제공할 수 있는 대안적 개인정보 비식별 조치 기법의 하나로 인정된다. 즉, 실제로 측정된 데이터(Real Data)를 생성하는 어떤 ‘모형’이 존재한다고 가정하고, 통계적 방법이나 기계학습 방법 등을 이용하여 그렇게 ‘추정된 모형’에서 새롭게 생성한 ‘모의 데이터(Simulated Data)’로 표현하기도 했다.

개인정보 보호하며 민감정보 분석 가능

이는 “모집단의 통계적 특성들을 유지하면서도 민감한 정보를 외부에 직접 공개하지 않으며, 개인이 제공한 데이터가 아닌, 임의로 생성한 데이터로 개인정보보호 관련 법규의 규제로부터 자유롭다”고 전제했다. 실제로 한국신용정보원은 금융 빅데이터 개방시스템(CreDB) 서비스 이용자를 분석하고, 그에 걸맞은 교육 등 위해 개인 신용정보 표본DB에 대한 ‘재현데이터’를 개발한 것으로 전해졌다. 이를 위해 신용정보원에 등록된 신용정보(대출, 연체, 신용카드개설)를 기반으로 약 180만 명에 해당하는 가상 차주에 대한 25개월 분의 재현데이터를 개발했다는 얘기다.

다양한 데이터셋 형태로 가상 데이터 생성

이같은 가상데이터는 다양한 데이터셋으로 재현 또는 합성된다. 대표적으로 ‘GCC Dataset GTA’는 게임 내 가상인간 이미지로 고해상도의 대규모 군중 계수를 보여주는 데이터셋이다. 또 ‘Hypersim Dataset’은 애플이 ‘실내 장면 이해’를 위해 사실보다 더 사실적으로 만든 합성 데이터셋이다.

또 ‘Virtual KITTI Dataset’은 네이버랩스가 자율주행이나 로봇 분야에서 널리 사용되고 있는 벤치마크 데이터셋(KITTI)의 합성 비디오 데이터셋이다. 한국신용정보원은 ‘개인신용정보 Dataset’을 통해 국내 최초로 개인신용정보 재현 데이터를 구축한 바 있다. Generated Photos사는 지난 2019년 ‘얼굴 합성 Dataset’을 통해 10만 장의 얼굴 합성 데이터를 무료 로 공개한 바 있다.

이같은 가상데이터 중에서 공개하려고 하는 데이터에 측정된 실제 데이터가 하나도 없이 모두 가상으로 생성된 데이터는 ‘완전 합성 데이터’다. 이는 정보 보호 측면에서 강력한 보안성을 지닌다. 또 ‘부분 합성 데이터’는 공개하려는 변수 중 일부만을 선택하여 합성 데이터로 대체한 데이터다. 이때 합성 데이터로 대체되는 변수들은 실제 데이터로 공개해선 곤란한 민감한 정보들이다.

또한 ‘복합 합성 데이터’가 있다. 이는 일부 변수들의 값을 합성 데이터로 생성한후, 생성된 합성 데이터와 실제 데이터를 모두 이용하여 또 다른 일부 변수들의 값을 다시 도출하는 방법으로 생성된 것이다.

오류, 검증 기준, 내재된 편향 등 과제도

그러나 이같은 가상데이터, 혹은 합성데이터도 R&D를 통해 더욱 연구․개선해야할 점이 많다는 지적이다.

우선 합성 데이터 역시 인위적인 데이터인 만큼 오류가 있을 수 밖에 없다. 또 합성 데이터가 실제 데이터를 제대로 대표하지 못할 경우 불필요한 제품이나 서비스 개발에 따른 낭비나 사고에 따른 법적 문제가 야기될 우려가 크다는 지적이다.

한국지능정보사회진흥원은 “또한 합성 데이터 생성 프로세스가 매우 복잡하고 목표대로 데이터가 만들어졌는지 검증할 수 있는 측정 기준도 필요하다.”면서 “합성 데이터를 생성할때 기초가 되는 실제 데이터에 숨겨진 편향이 있을 경우 합성 데이터에 그대로 반영될 수 있으므로, 사전에 합의된 공정성에 대한 정의에 맞춰 데이터셋을 구축할 필요가 있다”고 강조했다.

저작권자 © 애플경제 무단전재 및 재배포 금지