AI신뢰도·가치 높이기 위한 데이터 폭증, 장기간 저장 필요
데이터 스토리지 날로 부족, “아키텍처 증설엔 엄청난 비용”
새 워크로드, 플랫폼 통합, 아키텍처 단순화, 데이터 사일로 제거
[애플경제 김예지 기자] AI가 발달할수록 이를 위해 천문학적 분량의 데이터가 필요하다. 이에 많은 기업들은 데이터 관리와 저장 아키텍처가 이를 따라가지 못하고 있다는 지적이다. 현재 데이터 저장 플랫폼으론 태부족이란 얘기도 나오고 있다.
최근 시게이트, 히다치 반타라, 클라우데라 등 각종 보안업체와 연구기관에 따르면 데이터 저장 용량 요구 사항은 향후 2년 내에 150% 증가할 것으로 예상된다. 평균적인 대기업들은 현재 150페타바이트(PB)의 데이터를 보유하고 있다. 2026년 말까지는 300PB 이상의 데이터를 저장할 것으로 예상된다.
기업 재정적 투자, 기하급수적 증가
이에 따라 투자도 증가, 데이터 저장을 위한 재정적 투자도 같은 기간 동안 2배 이상 증가할 예정이다. 즉, AI와 처리 능력에 대한 투자도 2배 이상 증가할 것으로 예상된다. 연구에 따르면 국내외 IT업체들도 AI성장률이 중요 자산에 부담을 주고 있기 때문에 데이터 저장 용량이 심각한 문제라는데 의견을 같이하고 있다. 특히 “데이터의 복잡성이 감당할 수 없을 정도로 심각하다”는 우려도 따른다.
더욱이 문제는 갈수록 데이터가 임의로운 비정형이 다수를 차지한다는 점이다. 앞서 히다치 반다라 설문의 경우 응답자의 3분의 1 이상이 “데이터의 절반 이상이 현재 비정형”이라고 말했다. 시게이트는 “특히 더 크고 복잡한 데이터 스토리지에 대한 수요가 증가하고 있지만 스토리지 산업은 이러한 증가에 대비하지 못하고 있다”고 강조했다.
이들 분석에 따르면 AI가 성숙하고 확장됨에 따라 데이터의 가치나 분량이 폭증, 더 많은 데이터를 더 오래 저장할 수 밖에 없는 상황이다. 그러나 이에 비해 스토리지 시스템은 현재와 같이 빠르게 증가하는 데이터의 성장 속도보다 훨씬 느릴 것이란 전망이다. 특히 하드 드라이브를 만드는 데는 최소 1년 이상 걸린다는 점을 감안하면, 더욱 문제는 심각해질 것이란 얘기다.
“아웃소싱 스토리지도 문제”
이처럼 데이터 폭증을 따라잡지 못하는 스토리지 증설로 인해 문제는 날로 심각해질 것으로 보인다. 기업으로선 생성AI 사용이 기업 경영에 필수적인 요소가 됨에 따라 데이터 스토리지 공급을 시급히 보장해야 할 필요가 크다는 지적이다. 이를 위해 “장기 계획을 수립해야 할 것”이라고 말했다.
이처럼 데이터가 폭증하게 된 가장 큰 원인은 AI라고 할 수 있다. AI의 특성상 조금이라도 더 많은 양의 데이터에 대한 액세스가 필요하고, 기계 학습과 훈련에 활용하기 위해 데이터 저장 기간도 무척이나 길 수 밖에 없다.
특히 AI 훈련 체크포인트 캡처에서 소스 데이터 세트 저장에 이르기까지, 프로세스에 더 많은 데이터를 보관할수록 AI를 신뢰할 수 있다. 정확하고 신뢰할 만한 AI를 위해선 더욱 방대한 데이터가 필요하다는 뜻이다.
이에 “이때 활용되는 데이터는 진화하는 법적 요구 사항을 준수할 뿐만 아니라 추론을 설명할 수 있도록 하기 위해 장기적으로 사용할 수 있어야 한다”는게 업계의 얘기다. 이처럼 끊임없이 증가하는 데이터 분량으로 인해 기업이 어떤 저장 경로를 선택하느냐에 따라 다양한 문제를 일으킬 수 있다.
설사 아웃소싱 스토리지를 선택했다고 해도, 보안문제와 규정 준수, 잠재적 위험이 따른다. 그렇다고 AI 개발에 필요한 데이터를 내부적으로 보관하는 것은 기업으로선 부담하기 어려운 비용이 든다.
“기업, 인프라 현대화가 중요”
이에 전문가들은 증가하는 데이터 스토리지 문제를 해결하기 위해선 데이터 관리 전략과 데이터 아키텍처에 더욱 집중해야 한다는 목소리도 높다. 또한 생성AI의 신뢰도와 가치를 높이기 위해서도 인프라 현대화 프로젝트가 중요하다는 지적이다.
전문가들은 이에 다양한 해법을 제시하고 있다. 앞으로도 AI 개발이 지속가능하기 위해선 기업이 데이터 스토리지, 액세스, 사용을 제어하고 실시간 데이터 공유를 가능하게 해야 한다는 주문이다. 또한 여러 버전의 데이터를 지양하고, 그 대신 통합 데이터베이스 인프라를 유지 관리해야 한다는 주장도 나오고 있다.
특히 AI가 애플리케이션에 통합되는 사례가 늘어남에 따라 “데이터 아키텍처도 새로운 워크로드를 지원하도록 재설계해야 한다”는 전문가들도 많다. 또한 기업은 단순한 저장 기능을 넘어, AI 시스템의 ‘인텔리전스 히스토리’와 ‘사고 과정’을 포착하는 새로운 데이터 아키텍처를 구현하는 것도 중요하다는 의견이다. 특히 “플랫폼 통합을 비롯, 복잡한 아키텍처를 단순화하고 데이터 사일로를 제거, 신뢰할 수 있는 데이터를 만들어야 한다”는 주장도 많다.
