개인정보 재식별․침해, 데이터 편향, 고도의 전문성, 비용․시간 등 해결해야
전문가들 “합성데이터셋과 원본의 유사성 모니터링, 복합적 생성방법 등 필요”

AI와 메타버스, NFT가 접목된 기술이 '2022 국제인공지능대전'에서 출품되어 눈길을 끌었다. 사진은 본문가 직접 관련이 없음.
AI와 메타버스, NFT가 접목된 기술이 '2022 국제인공지능대전'에서 출품되어 눈길을 끌었다. 사진은 본문가 직접 관련이 없음.

[애플경제 전윤미 기자] 엄청난 양의 고품질 데이터를 확보하는게 AI와 머신러닝 기술의 관건이 되고 있다. 그러나 현실적으로 어려움이 많다보니 그 대안으로 채택된 합성데이터(Synthetic data, 혹은 가상데이터) 역시 단점이 적지 않다. 이를 극복하는 것이 향후 초대형AI나 챗GPT 등 초지능AI의 발전과 미래의 가장 큰 변수가 되고 있다.

특히 초대형AI가 발달하면서, 충분한 데이터를 확보하는 것이 무엇보다 중요해지고 있다. 지금까지 합성데이터를 활용해온 전문가들은 대체로 “개인정보 침해의 위험이 낮으면서 충분한 양의 고품질 데이터를 확보할 수 있다는 점에서 대안이 될 수 있다”는 의견이다.

“고품질의 충분한 데이터 확보난의 대안”

최근에도 합성데이터 관련 연구를 지속해온 정보통신정책연구원은 “실제 데이터 세트의 통계 패턴을 모방하여 인공적으로 만들어진 데이터로서, 이를 통해 데이터 확보난을 해소하는데 큰 도움이 되고 있다.”며 그 생성 과정과 산업 현장의 사례 등을 자세히 소개하기도 했다.

지금까지 정의된 개념에 따르면 합성데이터는 실제 세계에서 수집되거나 측정되는 것이 아니라 디지털 세계에서 생성된 것이다. 보통 수학적, 통계적으로 실제 데이터를 반영하되, 그 기반이 되는 실제 데이터 유무에 따라 방식을 달리한다.

실제 데이터 없이 합성되는 경우는 기존 모델이나 분석가의 지식을 이용해 생성하는 것이다. 즉, 통계적 모델이나, 설문조사, 혹은 그 밖의 데이터 수집 메커니즘을 통해 개발된 것 이 그런 경우다. 반대로 아예 어떠한 실제 데이터도 없이, 그냥 데이터를 설명하는 생성 모델을 사용해 합성 데이터를 생성하는 방법도 있다.

'2022 메타버스 페스티벌'에 출품된 메타버스 공연 화면.
'2022 메타버스 페스티벌'에 출품된 메타버스 공연 화면.

합성데이터 생성 방법, 오랜 시간과 숙련 필요

그러나 아직은 일부 보험․금융업계를 제외하곤 산업 현장에서 그다지 널리 활용되지 못하고 있는 실정이다.

앞서 공적 자금을 빌린 차주의 부도 가능성을 GAN을 적용, 측정하는 연구를 진행해온 한국신용정보원은 “합성 데이터야말로 데이터 생성 방법 결정에 대한 전문성이 요구되며, 프라이버시 이슈, 데이터 편향에서 완전히 자유롭지 못하다는 점에서 치밀한 연구가 필요하다”고 전했다.

실제로 이 기관의 경우 합성데이터를 생성하는 방법을 개발, 적용하기 위해 오랜 시간과 숙련의 과정을 거친 것으로 전해졌다. 특히 “환경과 프로젝트에 따라 매우 다양한 데이터 생성 방법이 필요하다”면서 “생성 방법마다 각기 다른 장단점이 존재하므로 적용 방법을 검토하고 선택하는데에도 많은 노력이 필요하다”고 지적했다.

무엇보다 합성데이터 생성 과정에서 중요한 것은 개인정보 침해의 위험을 최소화하는 것이다. 비록 데이터를 가상화함으로써 그런 위험을 낮출 수 있다곤 하지만, “그럼에도 불구하고, 민감한 개인 정보가 재식별될 가능성이 여전히 존재한다”고 우려했다.

실제로 정보통신정책연구원은 “미국의 경우 의료보험 관련 합성데이터 생성 알고리듬에서 민감정보 재식별률이 10%를 상회한다”는 연구결과(최은창, 2022)를 인용하기도 했다. 이에 “개인정보를 재식별하지 못하도록 하기 위한 비즈니스 프로세스를 갖추고, 개인정보 보호 규정에 대한 숙련된 전문가가 필요하다”고 강조했다.

'2022 국제보안엑스포'에 출품된 AI와 보안기술을 접목한 개념도.
'2022 국제보안엑스포'에 출품된 AI와 보안기술을 접목한 개념도.

“데이터 편향 완전해소, 사실상 난망”

개인정보 침해 문제와 함께 데이터 편향 문제도 완전히 해소되기 어려운 난제로 꼽힌다. 대다수 전문가들은 아예 “합성 데이터로도 편향의 문제를 완전히 해소할 수는 없다”고 단언한다. 정보통신기획평가원도 관련 연구논문을 통해 “합성 데이터 생성의 기초가 된 실제 데이터에 숨겨진 편향이 그대로 반영할 위험은 늘 존재할 수 밖에 없다”고 한계를 지적했다.

이는 무엇보다 합성 데이터 역시 인위적인 데이터라는 한계 때문이다. 어디까지나 사람으로부터 비롯된 데이터인 만큼 오류가 있을 수 밖에 없다. 그래서 “합성 데이터가 실제 데이터를 제대로 대표하지 못하거나, 허위 또는 왜곡된 정보를 제공할 경우 그 피해는 막심할 것”이라며, “예컨대, 불필요한 제품이나 서비스를 개발하고, 그로 인해 낭비된 비용이나 부작용을 해결하는데 드는 기회비용은 상상하기 어려울 수준”이란 얘기다.

'국제스마트팩토리전&오토메이션전'에서 선보인 머신비전과 AI센서 기술.
'국제스마트팩토리전&오토메이션전'에서 선보인 머신비전과 AI센서 기술.

합성데이터 검증, 공정성 기준 등 필요

역시 같은 연구를 지속해온 한국지능정보사회진흥원은 그래서 “합성 데이터 생성 프로세스가 매우 복잡하고 목표대로 데이터가 만들어졌는지 검증할 수 있는 측정 기준도 필요하다.”고 제언했다.

즉, “합성 데이터를 생성할때 기초가 되는 실제 데이터에 숨겨진 편향이 있을 경우, 사전에 합의된 ‘공정성’에 대한 기준이나 정의에 맞춰 데이터셋을 재구축할 필요가 있다”고 강조했다.

이들 전문가들은 그래서 “데이터 생성 방법의 복합적 접근을 시도하는 등 한계를 극복하기 위한 다각적 노력이 필요하다”고 입을 모은다. 또 데이터의 효용이나, 합성 데이터 세트와 원본 데이터 세트 간의 유사성을 지속적으로 모니터링함으로써 유용한 데이터셋을 구축해야 한다.

또한 “데이터를 생성할 때 반드시 전문가의 개입이 요구되며, 산업 현장에서도 업종 또는 업무별로 적합한 합성데이터를 구축하는 방법론에 대한 심층적인 연구가 있어야 향후 AI기술의 미래도 보장할 수 있을 것”이란 의견이다.

저작권자 © 애플경제 무단전재 및 재배포 금지