‘비정형 데이터 마이그레이션’이 AI 품질 좌우

전문가들 ‘최적화된 마이그레이션 단계, 방법론’ 등 앞다퉈 제시 마이그레이션 데이터 인벤토리 확정, 보안, 품질평가, 테스트 등 규제․법규 준수 여부 검토, 데이터 맵핑 등, ‘클라우드 마이그레이션도 고려’

2023-01-30     이보영 기자
데이터 모델링 이미지.(사진=셔터 스톡)

[애플경제 이보영 기자]AI학습을 위한 가장 기본적인 작업은 데이터 라벨링과 데이터 마이닝과 마이그레이션이다. 특히 구조화되지 않은 임의의 비정형 데이터의 마이그레이션은 AI의 품질을 좌우하는 중요한 요인으로 꼽히고 있다. 이에 전문가들은 비정형 데이터 이동과 변환을 위한 데이터 마이그레이션 최적화 방안을 나름대로 권장하고 있다.

한국클라우드산업연합회 회원사인 C사 관계자는 “데이터 마이그레이션 프로세스는 모든 기업에 매우 중요하다.”면서 “사내 환경에서 클라우드로 데이터를 이동하든, 여러 데이터베이스를 통합하든 간에 데이터 무결성을 유지하고 시간을 절약하고 효율성을 높이려면, 비정형 데이터 마이그레이션이 필요조건이라고 할 수 있다”고 권한다.

국내의 한 데이터 라벨링 업체 관계자는 “구조화되지 않은 데이터는 미리 정의된 방식으로 구성되지 않다보니, 설정된 데이터 모델이나 스키마가 없다”면서 “이는 불균일하기 때문에 쉽게 분석할 수 없으며 관계형 데이터베이스 관리 시스템에 저장할 수도 없다”고 지적했다. 그는 또 “이러한 유형의 데이터를 제대로 관리하려면, 구조화된 데이터로 변환하는게 필수”라고 강조했다.

이들 전문가들마다 다소 다르지만 대체로 데이터의 위치와 특성, 분류 기준 등 인벤트리를 비롯하여 데이터 품질 평가, 테스트 등 공통적인 마이그레이션 최적화 방안을 제시하고 있다.

비정형 데이터 마이그레이션 단계

전문가들은 비정형 데이터 마이그레이션을 적절하게 해내기 위해 몇 가지 기본 단계를 제시하고 있다. 그에 따르면 우선 데이터 유형을 식별하고 마이그레이션해야 할 데이터 분량을 결정하는 것이다. 이는 데이터를 클라우드로 이동하려는 경우 특히 중요하다는 지적이다. 또 비정형 데이터를 인벤토리한 후에는 불필요하거나 오래된 정보를 정리하여, 마이그레이션하는 데이터가 정확하고 최신 상태가 되도록 해야 한다.

이와 함께 마이그레이션 계획을 수립해야 한다. 프로젝트 범위에 대한 이해, 일정 설정, 최적의 마이그레이션 도구 및 전략 결정 등이 포함된다. 또한 “모든 시스템이 마이그레이션을 위해 적절하게 구성되어 있고 사용자가 새 시스템 또는 플랫폼을 사용할 수 있도록 적절하게 교육되었는지 확인할 필요가 있다”는 조언도 뒤따른다.

비정형 데이터 마이그레이션을 위한 필수 요소

우선 데이터 소스나 및 대상, 즉 데이터의 출처를 파악하고 현재 데이터 형식과 구조뿐만 아니라 대상 시스템의 필요한 형식과 구조를 이해해야 한다. 또 데이터 품질 기준을 정의하고, 기존 데이터를 평가․정리하며, 구현해야 하는 데이터 검증 규칙을 식별해야 한다. 데이터 변환을 위한 필드 형식 변환이나, 데이터 강화, 데이터 매핑과 같은 데이터 변환 요구사항과 프로세스를 결정해야 한다.

마이그레이션 역시 보안이 중요하다. 모든 중요한 데이터는 사용하지 않은 데이터와 전송 중 데이터를 모두 암호화해야 한다. 마이그레이션 프로세스 중이나, 새로운 데이터베이스 모두 데이터 보안에 철저해야 하는 것이다.

마이그레이션을 위해선 또 현실적인 스케줄을 설정하고, 마이그레이션 전후에 데이터를 테스트하고 그 정확성을 검증해야 한다. 또한 데이터 마이그레이션 프로세스나 결과를 문서화하되, 마이그레이션된 데이터에 대한 지속적인 유지보수 내지 모니터링을 하는 것도 중요하다는 지적이다.

또 다른 데이터 라벨링 업체인 C사의 클라우드 설계팀장은 “특히 비정형 데이터 마이그레이션을 위해선, 포괄적인 인벤토리를 생성하는게 중요하다”고 권했다. 그에 따르면 데이터 마이그레이션 프로젝트를 시작하기 전에 데이터의 이름, 위치, 크기, 형식, 복잡성 등에 대한 개념구도를 확정하는 것이다. 이는 어떻게 혹은 어디까지 마이그레이션 범위를 결정할 것인가, 혹은 마이그레이션에 적합하거나 그렇지 않은 데이터를 식별해낼 수 있게 한다.

다시 말해 “비정형 데이터의 위치나 파일의 유형, 파일 숫자, 데이터 형식, 데이터 저장 비용, 중요도 등”이라며 “이같은 과정을 거치면 체계적인 마이그레이션 계획을 수립하는 데 도움이 될 수 있다”고 강조했다.

데이터 품질 평가도 중요하다. 데이터 품질은 마이그레이션의 성공 여부에 직접적인 영향을 미친다. 이를 위해 모든 데이터가 올바르게 구성되고 레이블이 지정되고 형식이 지정되었는지 확인해야 한다. 즉, 정확한 데이터 라벨링이 이뤄졌는지가 중요하다. 나아가선 마이그레이션의 정확성에 영향을 줄 수 있는 잘못된 철자, 오타 등도 식별해야 한다.

비정형 데이터가 국내외의 법규나 규제책을 준수하는 것도 중요하다는 지적이다. 이를 위해선 전송 및 스토리지의 데이터를 보호하기 위한 적절한 보안 조치가 있는지, 인증된 담당자만 데이터에 액세스할 수 있도록 하는 등 개인 정보 보호 모범 사례를 따르는지 등도 따져봐야 한다.

데이터 모니터링과 보안, 테스트 등 중요

마이그레이션 전․후에 전체 프로세스에서 데이터를 모니터링하고 관리하는 것도 중요하다. 이는 “초기 마이그레이션 성공을 보장할 뿐만 아니라 문제가 발생하는 즉시 문제를 식별하고 해결할 수 있게 해준다”는 C사 관계자의 얘기다.

특히 중요한 것은 반복적인 테스트다. “철저한 테스트를 통해 데이터를 위험에 빠뜨리고 프로세스에 장시간 지연을 초래할 수 있는 오류나 예기치 못한 문제를 방지할 수 있다”는 것이다. 이를 위해 우선 전체 마이그레이션을 시도하기 전에 테스트를 할 필요가 있다.

다음으로 마이그레이션이 끝난 후 테스트를 하는 것이다. 마이그레이션이 완료된 후 마이그레이션된 데이터를 철저히 검토하여 정확하고 완전한지 확인하는 것이다. 즉, “모든 필드가 올바르게 매핑되었는지, 데이터가 손실 내지 손상되지 않았는지, 모든 비즈니스 규칙이 올바르게 적용되었는지 확인하는 작업”이다. 또 마이그레이션이 완료된 후에도 테스트를 해야 한다.

비정형 데이터를 일단 클라우드로 마이그레이션하는 것도 좋은 방법으로 꼽힌다. 그럴 경우 스토리지 증가나, 비용 절감, 확장성, 유연성, 보안 등 많은 이점을 취할 수 있다. 클라우드로 마이그레이션함으로써 유연한 형식과 데이터 관리를 기대할 수 있다. 그래서 “비정형 데이터를 저장하고 관리하는 좋은 방법이 될 수 있고, 올바른 공급자(CSP)와 적절한 보안 조치를 통해 클라우드에서 비정형 데이터를 쉽게 안전하게 유지할 수 있다”는 조언이다.