‘합성데이터’ 시대…정제·조정 등 ‘품질관리’가 생명

원본데이터 ‘개인정보’ 식별·추론 위험 제거, 원본 성능 발휘 등 사전학습과 도메인학습, 지도 미세조정, 보상 모델, 강화학습 적용 이미지 크기 표준화, 노이즈 제거, 메타데이터 처리, 불필요 영역 폐기도

2025-09-09     전윤미 기자
합성데이터의 원본데이터를 시사하는 이미지. (출처=언스플레쉬)

[애플경제 전윤미 기자] 리얼데이터의 한계를 보완하기 위한 합성데이터가 날로 중요해지고 있다. 그런 만큼 그 질적 완성도를 위한 데이터 품질관리 또한 강조되고 있다. 그 방식이나 기술, 시스템도 날로 고도화되고 있다.

구축 목적 명확하게 정의…단계별 제시

특히 생성AI 합성데이터의 경우, 그 품질을 높이기 위해 구축목적을 명확하게 정의하고 이에 맞도록 구축해야 한다. 전문가들은 이를 위한 몇 가지 단계를 제시하고 있다. 한국지능정보사회진흥원은 “합성데이터 생성 체크리스트를 미리 확인 후 절차를 수립해야 한다”며 방법론을 제안했다.

이에 따르면 우선 AI모델의 임무가 무엇인가, 또 합성데이터를 얼마나 구축하고, 어떤 방법으로 만들어야 하는지 등을 계획하는게 중요하다. 이를 바탕으로 제대로 된 ‘품질관리계획 ’등을 구체적으로 설계할 필요가 있다는 얘기다. 또한 “구축계획서에는 ‘구축 개요’, ‘데이터 구축’, ‘품질 자가점검 계획’ 등을 상세히 명시하는게 중요하다”는 것이다.

전문가들이 대체로 공유하고 있는 ‘생성AI 데이터 품질관리 가이드’를 종합하면, 데이터 정제단계와 가공 단계에서 품질관리가 철저히 이뤄져야 한다.

우선 정제된 합성데이터의 품질을 점검하는데서부터 품질관리가 시작된다. 즉, 생성된 합성데이터를 통해 원본데이터의 ‘개인정보’를 식별, 추론될 위험성이 있는지를 검사한다. 즉 안전성의 문제다. 생성된 합성데이터가 원본의 성능을 발휘할 수 있는지도 평가한다. 이는 유용성으로 측면이다. 이처럼 “합성데이터 품질검증은 ‘유용성’과 ‘안전성’을 충족하는지를 검사, 그 기준에 못미치는 합성데이터는 과감히 버려야 한다”는 조언이다.

또 생성된 합성데이터는 개발업체나 주체가 스스로 적정성을 심의, 검사하도록 한다. 이를 통해 최종 원천데이터로 사용할 합성데이터를 확정한다. 특히 합성데이터의 허가된 범위 내에서 활용되도록 하고, 남용되지 않도록 관리하는게 무엇보다 중요하다.

품질이 어느 정도 입증되면 이를 다시 가공한다. 정제과정을 거친 합성데이터를 AI모델이 효과적으로 학습할 수 있도록 하는 것이다. 데이터 유형과 구축목적에 맞게 데이터를 가공하는 단계다. 이는 생성AI 모델의 성능을 결정하는 데 매우 중요한 단계다. 즉 “잘 가공된 데이터는 오류나 탈옥 등을 최소화하고, 모델의 성능을 극대화할 수 있게 한다”는 얘기다.

원본데이터로 되돌릴 수 없는 ‘비가역적 알고리즘’ 적용도

고성능 고품질 합성데이터를 위해선 획득과 수집 단계에서부터 철저를 기할 필요가 있다. 우선 합성데이터의 활용 목적과 범위를 분명히 한다. 또한 합성데이터 생성 체크리스트를 기준으로 리얼데이터(실제데이터)를 수집한다. 특히 “리얼데이터에 담긴 개인을 식별, 추론할 위험성이 있는 정보가 있지나 않나 확인해야 한다”는 것이다. 또 합성데이터를 활용할 경우 어떤 법률이나 규칙이 적용될지를 미리 검토할 필요가 있다. 예를 들어 개인정보보호법, 생명윤리법, 신용정보법 등이 그런 경우다.

그런 다음 수집한 리얼데이터(실제데이터)를 바탕으로 다시 필요한 데이터를 선별한다. 선별된 데이터에 대해 개인정보 비식별화, 이미지 사이즈 표준화, 노이즈 제거, 메타데이터 처리, 그리고 합성에 필요하지 않은 영역을 삭제해야 한다. 이른바 ‘전처리 절차’에 해당한다. 이를 통해 “양질의 데이터를 선별, 시드데이터를 생성한다”는 얘기다.

합성데이터를 위한 리얼데이터를 수집하는 이미지. (출처=펙셀)

이런 절차를 거친 후 합성데이터를 생성하게 된다. 이때 특히 “원본데이터로 되돌릴 수 없는 비가역적 알고리즘을 사용하는게 중요하다”는 전문가들의 조언이다. 이를 기반으로 한 시드데이터로 합성데이터를 생성하게 된다.

이때 생성된 합성데이터의 경우, 개인 식별자와 특이값을 점검하고, 위험성 여부를 검사한다. 또 다양성, 합성 상태 등도 정밀하게 점검할 필요가 있다. 또 생성된 합성데이터에 대한 메타데이터 복원이나, 품질보완, 합성 상태 확인 등 후처리도 필요하다.

합성데이터의 활용에 앞서 ‘학습 데이터셋’을 이용한 학습이 필수다. 사전에 정의된 생성AI 모델을 학습시키고, 사전학습된 모델의 성능을 향상시키거나 보정해야 한다. 실제로 “학습모델에 따라 성능평가 결과가 영향을 미치는 경우가 많다”는 지적이다. 이에 알고리즘 적정성 평가 단계에서 알맞은 학습모델을 선택하는게 중요하다.

이를 통해 데이터 학습의 유효성을 평가하기 위한 정확도, 정밀도, 재현율 등 성능지표를 확인하게 된다.

활용 후에도 지속적이고 정밀한 구축·학습 반복

학습이 끝난 합성데이터에 대해선 다시 구축과 학습을 반복하게 된다. 활용을 하면서도 지속적인 학습과 조정, 데이터 가공, 모델학습과 평가를 반복한다. 동시에 학습용 데이터셋을 계속 구축하고 생성AI 모델을 효과적으로 학습토록 한다.

이같은 반복 학습의 경우 사전학습과 도메인학습, 지도 미세조정(SFT), 보상 모델, 강화학습 등의 유형이 있다.

사전학습과 도메인학습의 경우 원천데이터(말뭉치, 이미지, 음성, 비디오 등 다양한 데이터 유형)를 사용해 새롭게 구축(From Scratch)하고 기반모델을 바탕으로 도메인 학습을 한다. 여기서 기반모델Foundation Model)은 특정 작업을 위해 더욱 특화된 모델을 개발하는데 출발점이 되는 사전학습모델이다. 이 경우 비라벨링 데이터를 사용하는게 보통이다.

지도 미세조정(파인튜닝, SFT)은 정련된 질의응답셋으로 지도 미세조정 학습하는 것이다. 미세조정은 기존 AI모델을 기반으로 이미 학습된 모델의 가중치를 미세하게 조정, 학습하는 방식이다. 이를 위해 질의응답셋을 활용한다.

보상모델은 답변 우선순위 데이터로 보상모델(RM)을 학습하는 것이다. 이때 보상모델을 생성하지 않고, 우선 순위 데이터로 최종모델을 학습하기도 한다. 답변 우선 순위별로 데이터를 사용한다. 이에 비해 강화 학습은 질문 데이터셋과 SFT모델, RM모델을 활용한 학습 방식이다. 주로 질문데이터를 사용한다.