‘양과 질’, 변동성, 속도, 진실성, 유연성, 가변성, 다양성, 취약성 등
유형별로 ‘행정․상업․추적․센서․행동․의견 데이터’에 대한 이해 필수

사진은 '2022국제인공지능대전'에 출품한 한 AI클라우드 업체의 빅데이터 관련 제품을 설명한 현황도이며, 본문 기사와는 직접 관련은 없음.
사진은 '2022국제인공지능대전'에 출품한 한 AI클라우드 업체의 빅데이터 관련 제품을 설명한 현황도이며, 본문 기사와는 직접 관련은 없음.

[애플경제 이보영 기자] 이른바 ‘빅데이터 시대’라곤 하지만, 정작 이에 대한 정확한 개념 정리, 그 속성과 유형 등은 그다지 이해의 폭이 넓지 않다는게 전문가들의 견해다. 기존 데이터 방식과 비교했을 때 더 나은 해결 방안을 제공할 수 있어야 하고, 효율적인 국가통계시스템 작동을 위해서도 이에 대한 정확한 이해는 필수적이다.

데이터산업진흥원이 인용하는 ‘국제정보기술경영저널’(International journal of information technology & business management) 정의에 따르면 빅데이터는 일단 정보의 수집과, 저장, 배포, 관리, 분석을 위한 고급 기술이 필요한 대량의 가변 데이터를 설명하는 용어다. 이같은 빅데이터는 다른 데이터 소스와 구별되는 여러 가지 고유한 속성을 갖고 있다.

대표적으로는 대체로 10가지 정도의 속성으로 정리할 수 있다. 먼저 ▲‘양(Volume)’의 속성, 즉 데이터 기록 숫자, 속성 및 연결 장치를 들 수 있고, ▲속도(Velocity) 즉 데이터의 생산 속도로서 데이터 기록 생산, 수신, 처리 및 이해 속도가 있다. 다음으론 ▲다양성(Variety) 즉 데이터의 종류나 형식에 대한 다양성을 들 수 있다. 구체적으론 데이터 소스, 형식, 미디어 및 콘텐츠의 다양성을 말한다.

다음으론 ▲변화하는 기술과 데이터 스토리지 등의 변동성(Volatility)을 들 수 있고, ▲출처 및 가용성의 신뢰성과 같은 데이터 출처에 따른 진실성(Veracity)이 있다. 또 ▲데이터의 정확성, 신뢰성 및 품질 등 데이터의 정확도를 통한 유효성(Validity), ▲수집된 데이터의 비즈니스 가치, 즉 ‘가치(Value)’도 중요한 속성이다.

데이터 의미의 지속적 변화에 기인한 ▲환경에 따른 데이터의 가변성(Variability)도 중요한 속성이다. 그러나 데이터의 개인적 특성과 개인정보 보호, 보완의 필요성이 강조되는 바, ▲데이터의 유출 가능성과 같은 취약성(Vulnerability)도 속성으로 꼽힌다. 이 밖에 낮은 확장성과 기능성 등 ▲데이터의 여러 속성으로 인한 시각화가 어려운 점도 빅데이터의 중요한 속성이다.

한편 빅데이터 유형과 소스를 분류하는 보편적인 접근 방식은 아직 없다. 하지만, 유엔 통계위원회가 분류한 빅데이터의 유형이 그중 신뢰를 얻고 있다.

이에 따르면 우선 ▲행정 데이터(Administrative Data)가 있다. 이는 정부 또는 비정부 프로그램 관리에서 발생하는 데이터 소스를 말한다. 구체적으로 전자 의료 기록이나, 병원 방문 기록, 보험 기록, 은행 기록 등이다. 또 ▲상업 데이터(Commercial Data)가 있는데, 이는 두 기업 간의 거래에서 발생하는 상업 또는 거래 데이터 소스를 말한다. 예를 들어 신용카드나 온라인 거래, 전자 판독 데이터 등이 이에 해당한다.

다음으로 ▲센서 데이터(Sensor Data)가 있다. 이는 위성 영상, 도로 센서나 실내 온도 센서 등과 같은 센서 네트워크 소스를 말한다. ▲추적 또는 모바일 데이터(Tracking or Mobile Data)도 있다. 이는 모바일 및 위성 위치 확인 시스템의 데이터 추적과 같은 추적 장치 소스를 말한다. 마지막으로 ▲행동 및 의견 데이터(Behavioral and Opinion Data)가 있다. 흔히 수집되는 제품, 서비스, 또는 온라인 페이지 방문 횟수에 대한 검색 행동을 나타내는 데이터 소스나, 소셜 미디어 내의 댓글과 같은 사용자 의견 데이터 소스가 이에 해당한다.

이같은 속성과 유형을 갖춘 빅데이터의 개념은 2000년대 이후에 부각되기 시작했고, 국내에선 2010년대가 지나서 본격적으로 널리 확산되기에 이르렀다. 특히 “빅데이터의 발전은 컴퓨팅 파워, 유비쿼터스 컴퓨팅, 모바일 컴퓨팅, 네트워크 스토리지, 새로운 형태의 데이터베이스 설계, 소프트웨어 매개 통신, 트랜잭션의 새로운 모드, 머신 러닝을 활용하는 데이터분석의 발전으로 가속화되었다“는게 데이터산업진흥원의 설명이다.

저작권자 © 애플경제 무단전재 및 재배포 금지