전문가들 ‘서로 다른 인프라 스트럭처, 통합 데이터 소스처럼 가상화’
AI의 성능과 효능을 최대한 발휘하기 위해선 학습 기반이 되는 데이터가 생명이다. 그러나 ‘구슬이 서말이라도 꿰어야 보배’라는 말처럼 아무리 방대한 데이터가 있다 하더라도 품질좋은 데이터를 수집해서 이를 AI와 효율적으로 접목, 활용하는게 중요하다.
즉 데이터 품질을 보장할 수 있도록 데이터 소스를 탐색, 검색, 정제, 조합, 구조화하는 역량을 갖춘다면 기존 데이터 관리의 어려움을 해소할 수 있다.
또 데이터 수집을 하는 과정에서부터 온프레미스와 클라우드상의 모든 데이터를 커버하며 다양한 데이터 소스를 연결하고 통합하는게 중요하다.
그래서 데이터 기반 AI플랫폼의 역량을 높이고, 이를 위한 데이터 가상화 등이 효율적으로 구축되어야 한다는게 전문가들의 조언이다.
클라우드 네이티브․쿠버네티스도 중요
데이터를 바탕으로 한 AI 플랫폼이 가장 효율적인 역량을 발휘하려면 우선 효율적인 데이터 관리와 데이터 거버넌스 등을 통한 AI 운영의 적절성을 도모해야 한다.
이를 위한 대표적인 기술로 클라우드 네이티브와 쿠버네티스가 우선 꼽힌다. 빠른 프로비저닝과 확장을 위한 플랫폼 본연의 역할을 충실히 수행토록 하고 마이크로서비스나 컨테이너 등 클라우드 네이티브 기술을 이용하여 복잡하고 방대한 데이터를 적절하게 마이닝하고 활용할 수 있도록 해야 한다. 그런 바탕 위에서 데이터 기반 AI를 완성하는 데이터 가상화가 특히 중요하다.
데이터, 한 곳에 모아 놓은 것처럼 단일화된 뷰 구축
데이터 가상화는 모든 가상화가 그렇듯이 서로 다른 종류의 인프라 스트럭처를 논리적으로 하나의 통합된 데이터 소스인 것처럼 가상화함으로써 이에 손쉽게 접근하고 관리하며 최적화할 수 있게 해주는 방법이다.
기업 안팎의 다양한 데이터를 데이터 웨어하우스와 데이터 마트 등으로 복사함으로써 굳이 물리적으로 합치지 않고도 마치 한곳에 모아 놓은 것처럼 가상화해 단일화된 통합 뷰를 만드는 것이다.
이는 데이터가 생성된 위치로 마이닝 작업이 향하게 함으로써 데이터가 일일이 이동한 후 데이터링 작업이 이뤄지는 방식보다 훨씬 속도가 빠르고 성능이 향상될 수 밖에 없다.
특히 수집된 데이터를 굳이 복제해 저장하지 않기 때문에 스토리지 비용과 운영비를 절감할 수 있다는 점도 큰 장점이다.
시간 걸리는 쿼리 차단, 캐시를 활용
다만 사용자는 필요할 때 시간이 오래 걸리는 실행 언어 쿼리를 차단하고, 쿼리한 결과를 캐시하여 성능을 향상시킬 수 있다. 즉, 자주 액세스하는 데이터나 프로그램 명령을 반복해서 검색하지 않고도 즉각 사용할 수 있도록 캐시에 저장해두는 것이다.
이처럼 데이터의 소스 위치를 고려할 필요 없이 원하는 분석 작업을 할 수 있는 것이 데이터 가상화의 가장 큰 장점이다. 이를 통해 내부적인 작업이나 마이닝 등과 연계된 외부 인터페이스도 추상화할 수 있다.
전문가들은 단적으로 “데이터 가상화의 중심은 관계형, 하둡, NoSQL 등의 이질적 백엔드 데이터 센터에 대해 논리적으로 통합된 접근을 하고 쿼리하며 보고 예측 분석 등을 할 수 있고, 이외의 애플리케이션을 지원하는 것”이라고 요약하기도 한다.
스트리밍 분석으로 적절한 데이터 제공
데이터 가상화는 경우에 따라 여러 지리적 위치와 클라우드 환경에 걸쳐 분산되어 있는 스토리지나 서버 플랫폼과 같은 인프라스트럭처 가상화의 다른 계층들을 활용할 수 있다.
차세대 비즈니스 인텔리전스는 단순히 데이터를 그래프에 집어넣는 것이 아니라 더 많은 분석 작업을 수행해야 한다.
데이터 가상화는 스트리밍 분석을 사용해 비즈니스 분석가, 데이터 과학자, 자동화된 애플리케이션 등에 적시에 적절한 데이터를 제공하는 핵심 구성 요소라는 평가다.
AI 기반 플랫폼 효율화를 위한 데이터 가상화는 지난 2017년 분석 소프트웨어 개발업체인 팁코가 시스코의 데이터 가상화 사업을 인수하면서 특히 그 중요성이 부각되었다.
당시 팁코는 이로 인해 데이터 분석 포트폴리오를 강화하는 계기가 되었다. 즉 기업들이 데이터 소스를 전통적인 데이터베이스와 대형 데이터소스로부터 클라우드와 IoT로 이전하고 분석 솔루션을 이용해 좀더 신속하게 생산할 수 있도록 한다는 취지를 강조했다.
데이터 기반 AI 구현의 기본 전제
전문가들은 “이처럼 데이터 가상화는 기업이나 개인이 수개월이 아닌 수시간 또는 수 일만에 필요한 데이터를 찾고 분석해 정보망의 흐름을 신속하게 파악하고 이를 바탕으로 데이터를 효율적으로 활용할 수 있도록 해준다”며 “특히 이와 접목된 AI를 활용하기 위한 역량과 기술 요소를 기업이 현장에 적용하기 위한 핵심적 사안”임을 강조한다.
즉, 데이터 기반 AI를 구현하는 기본적인 전제가 곧 데이터 가상화라는 주장이다.
