데이터 저수지 ‘데이터 레이크(Data Lake)’ 확산
이미지, 동영상, 센서 데이터, 소셜 데이터 등 비정형 데이터 저장, 활용
[애플경제 이광재 ] 빅데이터 분석을 위해 정형 데이터뿐만 아니라 비정형 데이터까지 수집하고 분석하는 수요가 높아지고 있다. 하지만 빠르게 증가하는 데이터를 저장하고 처리하기에는 기존 방식으로 불가능하다. 이에 데이터 종류와 모델에 상관없이 모든 유형의 데이터를 저장하고 분석할 수 있는 방안으로 ‘데이터 레이크(Data Lake)’ 개념이 확대되고 있다.
데이터 레이크(Data Lake)는 간단하게 요약하면 다양한 구조의 원형 데이터들이 모여 있는 저장소다. 정형 데이터가 아닌 이미지, 동영상, 센서 데이터, 소셜 데이터 등의 비정형 데이터들을 수집하고 후에 필요한 정보를 통합하고 조직화해 목적에 맞게 데이터를 활용하고자 등장한 개념을 말한다.
필요한 데이터를 원하는 곳에 적시에 제공하는 것은 모든 조직의 도전과제다. 엣지부터 데이터센터, 클라우드에 이르기까지 데이터가 폭증하면서 유연한 인프라를 기반으로 다양한 종류의 데이터를 비용 효율적으로 저장하고 적재적소에서 이용하는 데이터 운용의 묘가 절실한 상황이다.
모든 데이터에서 인사이트를 얻고 싶다면 데이터의 흐름을 아는 것이 무엇보다 중요하다. 그러나 기존의 방법으로는 시간이 오래 걸리고 수집된 데이터가 ‘전부’인지 확신할 수 없다. 하지만 기업의 데이터를 ‘한 곳에 모아 놓고’ 접근한다면 얘기가 달라진다.
데이터 저장과 관리를 위한 전략인 ‘데이터 레이크’는 데이터 사일로 현상을 방지하고 데이터 분석을 위한 모든 종류의 데이터 취합에 탁월한 ‘데이터 중앙공급소’라고 할 수 있다
데이터 레이크를 사용하면 데이터를 다른 시스템으로 옮길 필요 없이 사용자만의 방식으로 데이터에 액세스하고 탐색할 수 있다. 데이터 레이크에서 얻은 통찰력과 결과는 다른 플랫폼 또는 데이터 리포지토리에서 정기적으로 가져오는 보고서와는 다르게 비정기적으로 발생한다. 그러나 사용자는 필요한 경우 스키마(schema)와 자동화를 적용해 보고서를 복제할 수 있다.
데이터가 늘면 인프라 비용 부담도 덩달아 커진다. 이에 기업들은 유연성과 확장성이 뛰어난 클라우드로 데이터를 이전하기 시작했지만 데이터 관리의 복잡성과 제조 및 통신 등 산업 현장에서 쏟아지는 엣지 데이터 관리가 걸림돌이었다. 필요한 장소에서 바로 데이터를 쓰고 데이터 저장 및 관리 비용이 과도하게 커지는 것을 방지할 수 있는 인프라가 절실했다.
특히 데이터 레이크는 데이터를 위한 총체적이고 큰 규모의 리포지토리를 원하는 기업에서 점점 더 보편화되고 있다. 또 데이터베이스보다 낮은 비용에 활용할 수 있다.
데이터 레이크를 사용하면 데이터에 대한 정제되지 않은 보기를 유지할 수 있음으로 데이터 분석가가 DW와 같은 기존 데이터 저장소를 벗어나 데이터 정제와 분석 기술을 활용할 수 있다. 데이터 분석가가 새로운 데이터 분석 방법을 찾기 위해서 데이터 레이크가 필요하다.
데이터 웨어하우스(DW)는 데이터 레이크와 자주 비교 언급되는 다른 방식의 데이터 관리 방법이다. 두 방식 모두 조직에서 분석하고 사용하고 싶은 데이터를 한곳에 모으는 데 사용된다는 공통점이 있지만 자세히 살펴보면 확연히 다른 특징을 가지고 있다.
데이터 웨어하우스는 저장 전 데이터를 미리 정의된 스키마(Schema: 정보를 통합하고 조직화하는 틀)를 적용하고 분석하기 용이한 형태로 모아 정제한다. 이렇게 구조화된 형태로 인해 높은 수준의 데이터 분석이 가능하며 데이터를 이해하기 쉬운 형태로 제공할 수 있게 된다.
반면 데이터 레이크는 웹서비스 로그나 센서 데이터, 소셜 네트워크 활동, 텍스트나 이미지 같은 비정형·반정형화된 데이터도 함께 지원한다. 예전에는 비용이 많이 든다는 이유로 외면당했지만 클라우드 서비스 등으로 저장 공간이 확보되면서 대규모 데이터를 분석하는데 많이 사용되고 있다.
최근에는 스키마를 가지고 정보를 분석하는 등 DW 개념과 통합해 ‘데이터 레이크 하우스’의 형태로 재구성되고 있는 추세다. 대용량 데이터를 적은 비용으로 누릴 수 있는 클라우드 네이티브 아키텍처를 적용해 데이터 레이크에서도 데이터 웨어하우스의 속도로 정보에 접근 가능하게 한 것이다.
정제되지 않은 데이터들을 마구잡이로 쌓다 보면 정작 필요한 데이터를 빠르고 정확하게 활용하는 데 어려움을 겪는 경우가 생길 수 있다. 그러한 연유로 데이터 레이크 환경을 잘 관리할 필요가 있다. 데이터 관리 방법이 체계화되면서 데이터 기술자나 데이터 과학자가 아닌 비전문가들도 원하는 데이터를 정제하고 사용할 수 있는 환경이 만들어지고 있다.
특히 인공지능의 발전으로 스스로 학습하며 데이터 관리를 할 수 있게 됐다. 데이터 레이크를 효과적으로 사용할 수 있게 해주었다는 점에서 최근 데이터 시장에서 더욱 주목을 받고 있다.
무엇보다 데이터 레이크는 빅데이터와 공유 데이터 시대에 맞게 많은 양의 자료를 수집해 분석하고 활용하는데 데이터 웨어하우스와 다른 이점을 가지고 있다. 따라서 미래에는 스키마 없는 원형 데이터들이 담긴 데이터 호수는 점점 커질 것으로 예상된다.
데이터는 이제 거스릴 수 없는 거대 트렌드 이자 모든 조직의 도착지다. 이에 데이터 레이크를 구축하고 운영하는 것은 앞으로 발생할 여러 상황에 대한 좋은 대비책이 할 수 있을 것이다. 하지만 데이터 레이크를 준비한다는 것은 단순하게 스토리지 용량을 늘린다는 것과는 다른 일이다. 또 여러 가지 복잡한 미래 기술 및 가치들과 맞물린 거대 프로젝트라 할 수 있을 것이다.
무엇보다 데이터 활용을 통해 실질적으로 경쟁력을 강화한다는 구체적 전력을 배경에 깔아둬야만 가치를 발생할 수 있을 것이다. 그 무엇보다 데이터를 관리하는 기본적 문호와 태도, 도구가 뒷받침돼야 할 것이다.