데이터 레이크 하우스, 비구조화 데이터 활성화, 클라우드 데이터 병합 가속화
‘데이터브릭스’ 전망, “다양한 형태의 데이터 현대화 및 마이그레이션 작업” 예고

데이터 모델링 이미지.(사진=테크리퍼블릭)
데이터 모델링 이미지.(사진=테크리퍼블릭)

[애플경제 전윤미 기자]2023년에는 기업들의 데이터 마이그레이션 패턴도 상당히 다변화될 것으로 보인다. 전문가들에 의하면 데이터 레이크와 데이터 레이크 하우스의 병존, 노에스큐엘(NoSQL)에 의한 비정형 데이터의 활성화, 온 프레미스와 클라우드 데이터의 병합 등이 가속화될 것으로 전망된다.

데이터 레이크 하우스로의 전환

특히 데이터 레이크 하우스로의 전환이 두드러질 것으로 보인다. 글로벌 소프트웨어 데이터브릭스(Databricks) 등에 따르면 데이터 마이그레이션의 가장 큰 혁신 중 하나가 데이터 마이그레이션의 필요성을 크게 줄여주는 데이터 레이크하우스가 될 공산이 크다. 데이터 레이크에서 하우스로 데이터를 이동하는 마이그레이션은 비용이나 시간이 많이 소요된다.

추출, 변환 및 로드(ETL) 자체가 그런 기회비용을 요구하는 도구다. 이에 데이터 레이크에서 굳이 데이터 웨어하우스로 데이터를 이동하는 대신, 데이터 레이크를 데이터 웨어하우스로 아예 변환하는 추세가 가속화될 것이란 예상이다.

데이터브릭스의 임원인 데이비드 메이어는 자사 블로그를 통해 “데이터 레이크는 여러 면에서 훌륭했지만 규모에 맞게 데이터와 AI를 수행하기엔 문제점이 많다”면서 데이터 레이크의 거버넌스 부족, 트랜잭션이 안전하게 수행되기 위한 4가지 필수적인 규정(ACID)을 준수해야 하는 점 등 약점을 지적했다.

이에 따르면 데이터브릭스의 오픈 소스 델타 레이크(Delta Lake)와 같은 계층은 그 대안이 될 수 있다는 설명이다. 이를 추가하면 기업은 해당 데이터를 이동하거나 마이그레이션할 필요 없이, 머신러닝 애플리케이션과 같은 복잡한 대용량의 데이터를 손쉽게 활용할 수 있다.

클라우드 마이그레이션 시장 날로 확장

클라우드 마이그레이션을 통해 데이터 손실을 방지하고 용량을 확장하는 경향도 두드러질 전망이다. 기왕에 그래왔듯이 데이터를 클라우드로 마이그레이션하는 것이다. 최근 IDC나 Gartner에 따르면 클라우드 지출은 전체 IT 시장에 비해선 다소 적긴 하지만, 다른 분야보다 훨씬 빠르게 성장하고 있다.

이는 “우선 사내 환경 내에 데이터를 저장하면 데이터 손실이 발생할 수 있다. 백업 정책이 마련되어 있더라도 데이터 스토리지는 백업이 자동화된 완전히 관리되는 클라우드 환경보다 사내에서 장애가 발생할 가능성이 훨씬 높다”는 가트너의 분석이다.

반면에 데이터를 클라우드로 이동함으로써 기업은 다양한 데이터 유형을 처리할 수 있을 뿐만 아니라 더 많은 데이터를 훨씬 더 빨리 수집할 수 있다. 또한 데이터의 급증으로 인해 기업의 모든 데이터 저장 능력이 한계에 다다르고 있는 사내 스토리지에 비해, 무한한 용량의 이점을 누릴 수 있다.

그 때문에 최근엔 글로벌 클라우드 제공업체들은 보다 원활한 데이터 마이그레이션을 지원하는 다양한 서비스를 제공하고 있다. 또 고객인 기업이 서로 다른 클라우드 공급자의 스토리지, 데이터베이스 등으로 데이터를 이동할 때 이를 지원하는 전문성을 갖춘 시스템 통합업체도 성업을 이루고 있다. 데이터를 클라우드로 안전하고 손쉽게 마이그레이션하는 것이 그 어느 때보다 쉬워진 것이다.

온 프레미스와 클라우드 데이터 통합 가속화

기존 온 프레미스와 클라우드 데이터를 통합하는 추세도 가속될 전망이다. 데이터를 클라우드로 마이그레이션하려는 흐름은 달리 보면 이미 많은 새로운 데이터가 클라우드에 존재하고 그 데이터가 실제로 생성된다는 뜻이다. 데이터브릭스는 “데이터 마이그레이션의 ‘추세’라기보다는 데이터 마이그레이션의 ‘이유’일 수도 있다”고 했다.

많은 기업들은 이제 사내 데이터보다는 클라우드 데이터가 경영에 가장 중요하게 되었다. 이로 인해 데이터 마이그레이션 프로젝트는 기존 사내 데이터를 동일한 클라우드 환경으로 이동시키는 경우가 대부분이다. 여기에는 데이터 레이크 및 데이터 레이크 하우스를 클라우드로 마이그레이션하는 사례도 포함된다.

비정형 또는 반 구조화 데이터 활성화

데이터 마이그레이션 리소스를 사용하여 비정형 데이터를 최대한 활용하는 추세도 2023년에는 두드러질 것으로 보인다. 온 프레미스와 클라우드의 통합은 다시 반(半)구조화 내지 비정형 데이터가 그 주요 대상이 되고 있다 .지리 공간이나, 센서, 소셜 미디어 데이터 등이 그런 것들이다.

이는 곧 데이터가 관계형 데이터베이스보다는 노에스큐엘(NoSQL) 즉 비관계형 데이터베이스에서 점점 더 많이 찾아볼 수 있음을 뜻한다. 데이터브릭스는 “구조화되지 않은 데이터라도, 그것이 노에스큐엘 데이터베이스에 저장되어 있든, 데이터 레이크에 있든, 데이터 마이그레이션 전략과 툴을 사용하여 이러한 데이터를 쉽게 이동, 정리 및 변환하여 분석할 수 있게 된다.

완전 관리형 데이터베이스 서비스로 전환도

이미 많은 기업들은 적어도 클라우드로 데이터를 이동하는 것을 고려하고 있다면, 자체 관리형 사내 데이터베이스에서 완전 관리형 데이터베이스 서비스로 전환하는 것으로 프로세스를 시작하는 경우가 많다. 예를 들어 오픈소스 마이에스큐엘(MySQL)을 자체 호스팅하기보단, AWS에 의한 MySQL용 Amazon RDS(관계형 데이터베이스)를 실행하는 경우도 그런 사례다.

데이터브릭스는 특히 “데이터 마이그레이션을 검토할 경우, 데이터 스토리지, 관리 및 인프라에 다른 주요 변경 사항도 적용해야 할 것인지 고려해 볼 필요가 있다.”면서 “이러한 종류의 데이터 현대화 및 마이그레이션 작업을 전문으로 하는 데이터 전문가를 고용하는 것도 고려해 볼 수 있다”고 조언했다.

저작권자 © 애플경제 무단전재 및 재배포 금지