자동 스캐닝·분류로 ‘비정형 데이터’ 적절한 구조화, 세분화 등 필요
‘데이터 레이크’ 저장은 비효율적, ‘AI로 적절한 데이터 이동’이 과제
‘데이터 저장소 전반의 가시성, 적절한 고품질 데이터 확보’가 중요
워크플로 자동화 도구로 ‘민감 데이터’ 분류, AI 통한 부적절한 사용 방지
[애플경제 전윤미 기자] 비정형 데이터(unstructured data)는 복잡하고 분산되어 있으며 ‘멀티 모달’에 가깝다. 불확정적이고 관리도 어렵다. 그럼에도 불구하고, 기업의 AI를 효율적으로 운용하기 위해선 이를 적절히 제어, 관리하는게 매우 중요하다는게 많은 전문가들의 공통된 견해다.
특히 자율주행차나 스마트 카메라, 모바일 통신 등에 이르기까지 비정형 데이터를 생성하는 애플리케이션이 날이 갈수록 폭발적으로 증가하고 있다. 생성AI 시대엔 이런 비정형 데이터야말로 산업 측면에서 가장 요긴하게 활용할 만한 방대한 자원이라고 할 수 있다.
기하급수적으로 증가하는 방대한 비정형 데이터를 효율적으로 저장하는 것은 기업의 성패와도 직결되는 조건이다. 비용 절감은 물론 (비정형데이터를 기반으로) AI 에이전트 및 기타 생성AI 이니셔티브를 위한 데이터 가치를 극대화하는 것이 매우 중요하다.
가트너는 이미 “측정 가능한 데이터 거버넌스를 기반으로 적합한 데이터를 찾아 적절한 AI 도구에 체계적으로 제공하는 것이야말로 최우선 과제”라고 그 중요성을 강조한 바 있다.
업무현장, 실시간으로 ‘비정형 데이터’ 쏟아져
현실적으로 산업 현장의 콘텐츠는 대부분 비정형 데이터다. 즉 업무 현장에서 생성되는 이메일이나, 계약서, 견적서, 각종 문서 양식, 회의 녹음 파일 등이 그런 것들이다. 이런 ‘독자적인’ 콘텐츠로서 비정형 데이터는 그 자체만으로도 차별화된 생성AI 모델을 가능하게 한다.
또한 생생한 실무 현장에서 나온 것인 만큼, 생산 제품과 서비스에 대해 매우 정확한 정보와 지식을 담고 있다. 특히 IT업계에선 이를 바탕으로 한 AI모델의 경우 환각 증상을 줄여주고, 한층 높은 경제적 가치를 창출할 수도 있다. 이는 외부의 정형화된 AI도구와는 또 더른 차원이다. “단순히 코파일럿을 설치한다고 해서 투자 수익을 더 많이 얻을 가능성은 낮다.”는 업계 일각의 얘기도 이를 반영하고 있다.
문제는 비정형 데이터가 방대하다는 점이다. 빅데이터 전문 기업인 ‘뉴엔AI’ 관계자는 “(비정형데이터는) 일반적으로 기업, 온프레미스, 클라우드에 분산된 파일과 디렉터리에 존재한다”면서 “이는 검색이나 이동이 어렵고, 품질이 좋지 않은 경우가 많다.”고 했다. 즉, “오래되고 중복되며, 부정확하고 구조가 체계적이지 않다”는 지적이다.
특히 대부분 멀티모달인 점이 특징이다. 이미지, 오디오, 텍스트, 문서, 의료용 데이터셋이나 네트워크 분석 이미지 등 다양한 파일이나 형식을 띠고 있다.
최근 ‘하버드 비즈니스 리뷰’(Harvard Business Review)는 이에 “적절한 비정형 데이터를 적시에 확보하는게 중요하다”면서 특히 “IT 인프라 및 운영 책임자는 모든 비정형 데이터를 분명하고 간편한 가시성을 갖추게 하고, 중요도에 따른 세분화를 시도해야 한다”고 강조했다. 중구난방으로 뒤섞이고 흩어져 있는 데이터 덩어리를 정밀하게 재구성, 분류해야 한다는 의미다. 이는 결코 쉬운 일이 아니지만, 기업활동에 유용한 데이터로 전환하기 위해선 필수적인 과정이다.
AI를 위한 적절한 ‘비정형 데이터’ 준비는 매우 중요
그러면 모든 파일 데이터를 클라우드의 안전한 ‘데이터 레이크’에 복사해두는 것은 어떨까. 데이터 과학자가 필요에 따라 데이터를 추출할 수 있게 하는 것이다. 스프레드시트나 빅데이터 처리를 위한 ‘파케이(Parquet)’ 파일과 같은 ‘반(半)정형 데이터’에는 ‘데이터 레이크’가 여전히 널리 사용되고 있다. 그러나 “수십억 개의 비정형 데이터 파일을 무작정 ‘데이터 레이크’에 버리는 것은 AI로선 적합하지 않다.”는 지적이다.
그런 경우 ‘데이터 레이크’는 검색하기 어려운 거대한 ‘데이터 늪’이 되기 십상이다. 우선 AI 워크플로의 반복적인 특성으로 인해 데이터를 여러 프로세서로 이동해야 할 때가 많다. 수시로 데이터를 추출해야 하는 상황에선 ‘데이터 레이크’가 비효율적이다.
가트너는 “만약 통합된 구조가 없으면 ‘데이터 레이크’에서 매번 적절한 데이터를 검색하고 찾아내는 것이 불가능해진다.”면서 “더욱이 천문학적 분량인 ‘페타바이트’ 규모의 저장을 하느라 비용은 엄청나게 들어갈 수 있다”고 그 비효율성을 지적한 바 있다.
더욱이 AI 프로세스가 엣지, 데이터 센터, 클라우드에서 이루어질 수 있으므로 각 프로세스별 사이트로 데이터를 이동해야 할 때도 많다. 중복되고 비용과 시간이 많이 소요될 수 밖에 없다. 그래서 “모든 비정형 데이터를 ‘데이터 레이크’에 복사한 후 각 AI 프로세스에 다시 복사해두는 것은 무리”라는 지적이다. 매번 동일한 데이터가 여러 AI 프로세서로 전송되거나, 프로세싱이 완료된 후에도 다시 저장되면 비용이 엄청나게 들곤 한다.
이는 또 다른 문제도 있다. 데이터베이스 및 온라인 정보업체인 ‘(주)듀얼오스’는 “동시에 여러 프로젝트에 전송하다보면 특정 프로젝트에 필요한 것보다 많은 데이터를 보내기도 한다.”거나, “여러 사용자가 같은 데이터를 서로 다른 시간에 동일한 프로세서로 전송하는 경우, 대부분의 조직에서 AI 처리 비용이 엄청나게 높아진다”고 문제점을 짚었다.
반대로 너무 적은 양의 데이터를 전송하면, 그 결과가 최적화되지 않거나 부정확해질 수 있다. 또한 민감하고 제한된 데이터를 AI 프로젝트에 전송하는 것도 문제다. “회사 기밀에 공개적으로 접근하는 것은 물론, 잠재적으로 규정을 위반하거나 소송 위험에 직면하게 된다”는 우려다.
데이터셋 구축과 재구성 등 AI 위한 준비 요령
이에 AI 프로젝트에 적절한 분량의 고품질, 비정형 데이터를 제공하면서도, 장시간 지연이나 수동 작업을 방지할 필요가 있다.
매년 한 차례씩 관련 설문조사를 해온 데이터 관리 SW기업인 ‘Komprise IT’의 최근 조사에선 그 해법을 제시되었다. 이에 따르면 AI를 위한 비정형 데이터의 가장 큰 과제는 “적절한 비정형 데이터를 신속하게 찾아 AI가 존재하는 곳으로 이동하는 것”으로 나타났다.
또한 “위험을 이해하고 식별하기 위한 데이터 저장소 전반의 가시성을 확보하고, 데이터 세분화와 분류를 하는 것”도 중요하다는 지적이다.
그러나 파일 시스템에서 자동으로 생성되는 메타데이터는 너무 원초적이다. 그래서 데이터에 유용한 맥락이나 구조를 추가할 수 없다. 그렇다고 수십억 개의 파일을 수동으로 검색하고 메타데이터를 보강/태그 지정하면서 데이터를 분류하고 구성하는 것은 불가능하다.
이에 AI를 위한 데이터를 더 쉽고 자동화된 방식으로 다듬을 필요가 있다는 주문이다.
업계 관계자 등 전문가들과 국내외 연구결과를 종합해보면 몇 가지 해결 방책으로 요약된다. 우선은 ‘민감 데이터’를 탐지하는 것이다. 즉, 워크플로 자동화 도구를 사용, 민감 데이터를 분류하고 AI를 통한 부적절한 사용을 방지하는 것이다.
또한 자동 스캐닝 및 분류를 통해 비정형 데이터의 구조를 체계화한다.
물론 비정형 데이터 관리 기술은 아직은 크게 발달하지 못한 상태다. 그러나 전체 데이터 자산에서 파일 콘텐츠를 스캐닝하고, 레이블을 지정, 식별하는게 중요하다. 필요한 경우 또 다른 AI에게 수집되지 않도록 데이터를 제한하는 자동 분류 기능을 장착할 수도 있다. AI 도구와의 통합을 통해 열린 파일을 분석하고, 키워드를 검색할 필요가 있다. 그렇게 큐레이팅된 데이터 셋에서 신속하게 데이터를 분류할 수도 있다.
태그 지정(메타데이터 강화)을 통해 비정형 데이터를 더욱 세분화하는 것도 방법이다. AI 프로젝트를 위한 파일 데이터 검색이나, 세분화, 레이팅이 더 쉽고 빨라진다. 그러면 사내에서 IT 부서의 도움 없이 비정형 데이터 관리 솔루션을 사용해 키워드로 검색하고 분산 파일 시스템에서 관련된 모든 파일을 찾을 수 있게 된다.
‘검색 증강 생성’(RAG)을 위해 ‘벡터 DB’ 저장도 방법
AI를 위한 또 다른 데이터 준비 전략은 ‘검색 및 증강 생성’(RAG)을 위해 ‘벡터 데이터베이스’에 데이터를 저장하는 방법이다. ‘벡터 데이터베이스’를 통해 기업은 파일 데이터를 키워드가 아닌 의미를 포착하는 형식으로 변환할 수 있다. 검색 엔진, 챗봇, 추천 시스템에 유용한 전략이다.
비정형 데이터에 태그 지정, 분류 및 세분화가 완료되면, 이젠 데이터를 ‘AI 파이프라인’을 통해 효율적으로 이동할 수 있는 방법이 필요하다. 대용량 데이터셋을 복사하는 데는 몇 주가 걸릴 수 있다. 수백만 개의 작은 파일을 클라우드 AI 서비스로 이동해야 하는 경우, 데이터 손실이나 보안 위험이 발생할 수 있다.
흔히 이런 경우 데이터를 수동으로 복사하는 방법도 쓴다. 또 무료 도구나 데이터 관리 도구 등도 가능하지만, 자동화된 데이터 관리 솔루션을 가장 많이 선호하는 편이다. 이를 통해 AI에 사용할 적절한 데이터를 스토리지에서 필요한 위치로 이동시키는 과정을 간소화할 수 있다.
비정형 데이터 워크플로 솔루션에는 전체 과정을 모니터링하는 대시보드가 포함될 경우도 있다. 이는 워크플로를 모니터링하고, 필요한 경우 특정 프로젝트에서 사용된 데이터셋과, 사용자까지 들여다볼 수 있다. 특히 “‘섀도 AI’가 직장인들 간에 확산되는 등 상용 AI 도구로 데이터가 잘못 유출될 우려도 크다”는 것이다.
