DI(데이터 수집)는 빠르고 인프라 간단, ETL ‘잠재적 데이터 많이 획득’
DI, 원시 데이터 많아 품질 문제, ETL, 느리고 정보 접근 불편
기업들 “양자 병행, 시너지 극대화”, 전문가들 “‘목표’에 따라 선택할 문제”
[애플경제 이보영 기자]데이터 웨어하우스나 데이터 레이크로 데이터를 이동할 때는 ETL을 주로 사용한다. 이런 방식으로 데이터 수집 경로를 선택할 경우 채택해야 할 잠재적 데이터가 더 많아지기 때문이다. 예를 들어, 데이터 수집을 통해 회사의 기술 스택에 있는 도구와 애플리케이션으로 데이터를 직접 이동할 수도 있다.
또한 DI에는 원시 데이터를 수집하는 작업이 포함되기 때문에 여러가지 품질 문제로 어려움을 겪을 수 있다. 반면에 ETL은 항상 정보를 정리하고 올바른 형식으로 변경하는 단계를 포함하므로 그런 염려가 적다.
반면에 ETL은 거의 실시간으로 이뤄지는 DI보다 상대적으로 느릴 수 밖에 없다. 데이터 웨어하우스는 하루에 한 번 또는 더 뜸하게 데이터를 수신한다. 이로 인해 정보에 즉시 접근하는 것을 어렵게 하고 때로는 불가능하게 만든다.
“둘다 효율적 데이터 관리 프로세스”
데이터 수집(Data Ingestion)과 ETL(extract, transform and load)은 데이터 경제의 양 날개와도 같다. 물론 역ETL 등 다른 방식도 있으나, 어디까지나 예외적 전술에 그친다고 할 수 있다. 그런 가운데 전문가들은 “DI와 ETL은 같으면서도 다르다”고 평가한다. 실제로 양자는 각기 다른 역할과 방식으로 비즈니스 워크플로우를 가동하며, 데이터 경제를 작동시키고 있다.
기업이나 조직에서 빅데이터 시각화의 전제 조건은 일상 업무에서 사용하는 데이터의 양을 가급적 늘리는 것이다. 그래서 소비자나 고객의 다양한 요구사항을 충족하고 각종 변수에 보다 효율적으로 대응할 수 있어야 한다.
e러닝 등을 전문으로 하는 ㈜데이터에듀의 전구진 상무는 “증가하는 비즈니스 데이터 풀을 관리하는 것은 특히 최적화된 스토리지 시스템과 툴이 필수적”이라며 “이는 데이터 마이그레이션과 데이터 최적화 프로젝트를 효율적으로 수행할 수 있는 데이터 관리 프로세스의 조건”이라고 강조했다.
곧 ETL과 ‘데이터 수집’(DI)가 그 핵심 요소라는 얘기다. 이처럼 ETL과 DI는 목적과 기능 면에서 다소 중복된다. 그러나 데이터 라벨링을 전문으로 하는 ㈜크라우드웤스의 한 관계자는 “많은 기업들은 흔히 두 가지를 병행해서 사용함으로써 최대한의 시너지를 내는게 일반적이지만 그 작동 방식과 역할은 분명 다르다”고 짚었다.
DI(데이터 수집)의 역할과 기능
이들 전문가에 따르면 DI는 수집된 데이터를 다시 처리, 분석하기 위해 데이터를 한 장소에서 다른 장소로 이동하는 프로세스이자 도구라는 의미를 포괄하고 있다. 보통은 외부의 데이터 소스에서 회사 내부의 필요한 위치로 데이터의 일부 또는 전부를 전송하는 작업을 포함한다.
그 방식은 크게 ‘배치 데이터 수집’과 ‘스트리밍 데이터 수집’으로 나뉜다. 전자는 가장 일반적인 데이터 수집방식으로서 쉽게 말해 일정한 간격으로 정보를 수집하고 이동하는 작업이다. 이에 반해 ‘스트리밍 데이터 수집’은 실시간으로 정보 수집과 이동이 동시에 이뤄지는 것이다. 이는 의사 결정 프로세스를 위해 가장 최신의 데이터를 활용할 경우 한층 유용하다는게 현장 관계자들의 얘기다.
ETL, 추출․변환․로드의 방식
그렇다면 두 가지 방식의 차이는 무엇일까. 그 중 ETL, 즉 추출과 변환, 탑재(로드)는 데이터를 한층 구체적으로 처리하는 방식이라고 할 수 있다.
우선 ‘추출’ 단계는 말 그대로 데이터 소스에서 데이터를 추출하여 가져오는 과정이다. 그 대상은 정형 데이터와 비정형 데이터를 모두 아우른다. ‘변환’은 데이터를 회사나 조직이 필요로 하는 조건에 맞고, 신뢰할 수 있는 형식으로 변경하는 것이다. 이를 위해 불일치한 점을 수정하고, 필수 불가결한 사안이나 측정값을 추가하며, 중복 데이터를 제외 내지 삭제하기도 한다. 한 마디로 “데이터 품질을 높이기 위한 제반 작업”이라고 할 수 있다.
‘로드’, 즉 탑재는 데이터가 필요한 적재적소로 이동하는 것이다. 정형 데이터를 데이터 웨어하우스(저장소)에 저장하거나, 정형 데이터와 비정형 데이터를 한꺼번에 ‘데이터 레이크(호수)’에 저장하기도 한다. 앞서 크라우드웤스 관계자는 “결론적으로 ETL은 기업이 추가 사용을 위해 데이터 세트를 준비할 수 있도록 하는 ‘엔드 투 엔드 프로세스’라고 할 수 있다”고 했다.
DI와 ETL, 일단 역할과 작동방식이 유사
DI와 ETL은 또한 서로 유사한 역할을 하기도 한다. 그렇다보니 그 결과나 목표가 다소 다름에도 불구하고, ETL을 DI의 한 부분집합 정도로 간주하기도 한다. 이는 물론 정보를 단순히 수집하고 이동하는 것 이상의 임무인 ETL의 속성을 간과한 것이긴 하다.
그럼에도 DI와 ETL은 보다 엄격한 클라우드 보안을 지원함으로써 데이터셋이 클라우드로 이동하고 변환할 때, 데이터셋의 정확성을 기하고 보호 기능을 추가할 수 있다. 인공지능 자동대응시스템 전문인 ㈜쿼리시스템즈 관계자는 “두 프로세스 모두 데이터를 정확한 형식으로 이동하고 변경하는 데 시간이 걸리기 때문에 조직으로선 전반적인 데이터 지식과 사용 능력도 향상된다.”면서 “또한 새로운 데이터 보안 기회를 파악할 수 있을 것”이라고 공통의 순기능을 강조하기도 해 눈길을 끈다.
또 보조 소프트웨어들은 ETL이나 DI 모두에 사용할 수 있다. 일부 솔루션은 엄격하게 둘 중 하나를 위해 설계되었지만, 수집된 많은 데이터 제품들은 ETL의 일부 또는 모든 단계와도 겹친다는 얘기다.
DI와 ETL은 어떻게 다른가
그럼에도 양자는 분명 다른 점이 많다. 데이터 웨어하우스나 데이터 레이크로 데이터를 이동할 때는 ETL을 주로 사용한다. 이런 방식으로 데이터 수집 경로를 선택할 경우 채택해야 할 잠재적 데이터가 더 많아지기 때문이다. 예를 들어, 데이터 수집을 통해 회사의 기술 스택에 있는 도구와 애플리케이션으로 데이터를 직접 이동할 수도 있다.
또한 DI에는 원시 데이터를 수집하는 작업이 포함되기 때문에 여러가지 품질 문제로 어려움을 겪을 수 있다. 반면에 ETL은 항상 정보를 정리하고 올바른 형식으로 변경하는 단계를 포함하므로 그런 염려가 적다.
반면에 ETL은 거의 실시간으로 이뤄지는 DI보다 상대적으로 느릴 수 밖에 없다. 데이터 웨어하우스는 하루에 한 번 또는 더 뜸하게 데이터를 수신한다. 이로 인해 정보에 즉시 접근하는 것을 어렵게 하고 때로는 불가능하게 만든다.
DI는 ETL, 어느 것을 선택할까
그렇다면 데이터 수집과 ETL을 함께 사용할 수 있을까? 많은 기업들은 DI와 ETL 전략을 동시에 사용한다. 그 선택은 처리해야 하는 정보의 양과 프로젝트를 지원할 기존 인프라가 있는지 여부에 따라 크게 달라진다. 회사에 데이터 웨어하우스나 호수가 없는 경우, ETL 전략을 구사하는 것은 적절하지 않단는 지적이다.
DI는 ETL에 비해 프로세스를 시작하기 전에 운영 환경을 전환할 필요가 없다는 것이 장점이다. 반면에 ETL은 회사의 현재 인프라를 더욱 확장하고, 관련 조직이나 인력을 추가로 고용하며 툴도 새로 구입해야 할 수도 있다. 이에 비해 DI는 상대적으로 그다지 높은 기술 수준을 요구하지 않으므로, 그럴 필요가 없다.
그래래 기업이 DI 또는 ETL 중 하나를 선택하거나 병행할 경우, 미리 데이터 우선 순위를 평가해야 한다는게 전문가들의 지적이다. 앞서 ㈜쿼리시스템즈 관계자는 “특히 DI와 ETL이 조직 내 데이터 사용을 위한 단기 혹은 장기 목표를 어떻게 지원하는지 질문해야 한다.”면서 “그러나 더욱 중요한 것은 양자가 모든 데이터 프로젝트에 대해 반드시 최선의 선택은 아님을 명심하는 것”이라고 밝혔다.
