데이터 관리와 활용…‘데이터 패브릭’과 ‘데이터 매시’가 대세
중앙저장소 방식의 데이터 레이크 대신 ‘분산화, 엣지 개념의 도메인 활용’ 분산 네트워크 환경, 원활한 데이터 액세스․공유 위한 데이터 관리기술 작동
[애플경제 이보영 기자] 데이터를 효과적으로 활용하려면 정확한 의미 체계를 해석하며 데이터가 생성된 도메인에서 데이터를 성숙시켜야 한다. 특히 데이터가 본래 생성된 위치, 곧 엣지에서 액세스할 수 있어야 하고, 다른 도메인의 사용자가 손쉽게 발굴하고 활용할 수 있도록 하는게 중요하다. 기존의 중앙집중식의 데이터 웨어하우스(저장소)나 데이터 레이크(호수) 방식은 그러나 관리, 저장 중인 데이터를 제대로 파악할 수 없다는 지적이 많다.
이에 분산화와 엣지 개념의 데이터 패브릭 내지 데이터 매시 개념으로 최근 전환되고 있는 추세다. 기왕의 데이터 레이크 아키텍처를 기반으로 하는 중앙 집중식 데이터 플랫폼은 조직 내에서 서로 다른 도메인에 속하는 데이터를 호스팅하고 소유함으로써 각기 다른 사용자가 데이터를 손쉽고도 최대한으로 활용하는데 어려움이 많았다. 이를 위해 “분산 네트워크 환경에서 원활한 데이터 액세스와 공유를 지원하기 위해 여러 데이터 관리 기술이 작동하는 디자인 개념인 ‘데이터 패브릭(Data Fabric)’이 바람직하다.”는게 최근 가트너의 조언이다.
이에 따르면 데이터 패브릭은 통합 데이터 관리 프레임워크를 활용하여 데이터 관리와 사용을 원활하게 할 수 있게 한다. 이를 위해 데이터 패브릭은 데이터 통합과 데이터 시각화, 데이터 관리 기술을 두루 아우르며, 필요한 데이터를 신속하게 찾아내거나 사용할 수 있게 하는 것이다. “다시 말해 원활한 데이터 사용을 위한 여러 비즈니스 프로세스를 지원하는 의미 계층을 생성한다.”는게 가트너가 말한 데이터 패브릭의 원리다.
이런 데이터 패브릭이 한층 원활하게 동적으로 가동하기 위해선 일종의 오케스트레이션 기능을 겸하는 ‘데이터 메시(Data Mesh)’로 최근엔 전환하는 추세다. 즉 이는 한층 진화된 분산 데이터 아키텍처로서, 머신러닝을 통해 메타데이터에 초점을 맞춤으로써 한층 데이터 발견과 범주화를 원활하게 이뤄지게 하며, 또한 시스템 성능을 최적화한다.
가트너는 “이같은 데이터 메시 비전은 특히 데이터 가상화를 기반으로 한다”고 해 눈길을 끈다. 즉 데이터가 여러 비즈니스 단위에 걸친 데이터 소스(생성 위치)에 위치하는 원리다. 이를 통해 유연하고 지능적인 데이터 인프라가 작동하며, 기업이나 조직의 구성원들이 그야말로 ‘셀프 서비스’ 방식으로 데이터를 활용할 수 있게 되는 것이다.
그 때문에 “데이터 패브릭과 데이터 메시 아키텍처는 기업이 도메인(생성, 엣지) 데이터를 효과적으로 사용하기 위해 극복해야 할 기술적 및 조직적 문제 해결을 위해서도 필수적 조건”이라는 가트너의 평가다.
물론 같은 데이터 메시 아키텍처라고 해도, 여러 가지 액세스 경로가 있고, 그 접근방식은 어떤 액세스 경로를 택하느냐에 따라 달라질 수도 있다. 그럼에도 데이터 메시를 통해 이루고자 하는 가장 중요한 목적은 설사 기업이 중앙 집중식 데이터 환경에 있더라도 분산 방식으로 데이터를 수집하는 것이다. 그래서 도메인(생성) 데이터를 본래 그 자리에 그대로 유지하는 기능이다.
이같은 데이터 메시 접근방식을 사용하면 데이터가 필요한 사용자들이 복잡하게 도메인을 파악해야 하거나, 데이터 소스를 대상 도메인에 필요한 결과와 일치시켜야 하는 수고를 덜 수 있다. 대신에 “지식 그래프와 의미론적 메타데이터 계층을 사용해 효과적으로 이런 과정이 자동화되는 것”도 큰 장점이다. 이 ‘계층’에 대해 가트너는 “기업이 데이터를 쉽게 찾고 검색할 수 있도록 데이터의 의미를 설명해주는 것”이라고 설명했다. 예를 들어 사람에게는 사용하기 쉬운 데이터 카탈로그를 제공하는가 하면, 기계에겐 어떤 데이터를 어느 시점에 가져와야 하는지 알려주는 식이다.
가트너는 이처럼 데이터 메시의 장점을 유독 강조하고 있다. 특히 “데이터 메시는 공유 메타데이터 모델을 사용해 모든 부분을 자동화된 방식으로 손쉽게 구성하여 상호 운용성을 제공할 수도 있다.”면서 “즉 앞서 언급된 계층과 리소스를 통해 기업이나 조직에게 기존 데이터 플랫폼이나 아키텍처를 사용하여 얻을 수 없는 지식을 제공한다.”고 높이 평가한 점도 눈에 띄는 대목이다.