수행 도메인 결정과 수행 주기, 저장포맷, 공개주기 등 기술적 문제 해결해야
저작권법, 부정경쟁방지법, 개인정보보호법 등 제도적 제약조건도 극복 필요

사진은'2022 국제인공지능대전' 현장으로 본문 기사와 직접 관련은 없음.
사진은'2022 국제인공지능대전' 현장으로 본문 기사와 직접 관련은 없음.

 

[애플경제 이보영 기자]커먼크롤은 오픈소스와 함께 공동체적 기술문명을 위한 미덕으로 주목받고 있다. 이는 웹상의 데이터를 자동적으로 탐색하되, 웹 크롤링 데이터를 누구나 접근, 분석하도록 공개된 저장소에 유지·관리하는 개념이다. 웹3.0 시대의 오픈소스 버전으로 비유할 만한 것이다. 그러나 국내에선 이를 실용화하기 위해선 제약이 많다. 이에 기술적, 법적, 제도적 제약조건을 극복하는 방안이 새삼 과제로 떠오르고 있다.

이에 관해선 한국지능정보사회진흥원이 가장 체계적인 대안을 제시하고 있어 주목된다. 이에 따르면 우선 어떤 것을 커먼 크롤의 대상으로 할 것인지가 중요하다. 웹 크롤링을 수행할 도메인을 어떻게 정할 것인지 결정해야 하는 것이다. 검색 업체, 미디어(뉴스), SNS, 쇼핑몰, 연구단체 등 수집대상 도메인도 결정해야 한다. 또한 전문가의 자문에 따른 TLD과 통계정보를 활용한 Top-500 도메인 등을 선정하되, 필요에 따라선 도메인을 추가, 삭제할 수도 있어야 한다.

웹 크롤링 데이터의 수집 방법도 문제다. 정적 컨텐츠에 연결된 하이퍼 링크에 대해서 수집할 것인가, 아니면 동적 컨텐츠를 수집할 것인가 등이다. 또 하이퍼링크를 몇 레벨까지 수집할 것인지, 적법한 범위 내에서 동적 컨텐츠 수집 대상은 무엇인지, 그 방법은 어떠한지 등을 정책적으로 설정해야 한다.

웹 크롤링 수행 주기나, 공개 주기 등도 중요하다. 웹 크롤링 대상이나 웹페이지의 평균 업데이트 주기 등을 고려해서 이를 결정하는게 바람직하다는게 진흥원의 견해다. 이에 따르면 “보통 커먼크롤의 경우 한달 주기로 수집하고 공개한다”는 얘기다. 또한 웹 크롤링 데이터 중에서 중복되거나, 유사한 데이터를 제거할 수 있어야 한다. 중복된 URL을 제거하고, 유사한 정도에 대한 기준도 마련하는 한편, 삭제 방안에 관한 정책도 수립해야 한다.

웹 크롤링 데이터의 저장 포맷도 중요하고, 데이터 저장 단위, 저장 위치, 공개 방식도 결정되어야 한다. 또 데이터 유형 별 저장 방식도 정해야 한다. 애초 커먼크롤은 웹페이지에 있는 미디어(이미지, 동영상, 소리 등)와 파일(이진 파일) 들을 텍스트로 변환하여 base64 인코딩 등으로 저장하는 것이다.

이 밖에 제도적, 법적 제약조건도 해결해야 한다. 우선 중요한 것이 지식재산권법이나 저작권법과의 문제다. 특히 타인의 저작물을 크롤링하여 수집하는 경우가 대표적이다. 이에 저작권 이슈가 발생할 수 있는 데이터를 수집대상에서 제외하는 것이 바람직하며, 수집된 데이터를 부정경쟁에 해 활용될 수 있는 형태(DB 등)로 제공하지 않도록 한다. 웹 크롤링이 부정경쟁방지법에 해당되는 사례에 대한 안내나 홍보, 주의사항 등도 공유하도록 한다.

개인정보 보호법이나 위치정보법 저촉 여부도 중요하다. 즉, 개인정보나 위치정보가 포함되어 있는 데이터를 수집할 경우 개인정보 이슈가 발생하지 않도록 주의한다. 특히 수집된 데이터에 대해선, 반드시 비식별화 또는 가명정보처리를 하도록 한다.

부정경제방지법이나 정보통신망법 등에 저촉되어서도 안 된다. 데이터를 부정하게 사용하거나, 웹 크롤링 데이터의 판매 등 형법에 따른 부정한 사용을 금해야 한다. 이를 위해 미리

부정 사용에 대한 사례를 공지하도록 한다. 이 외에 개별적 이용약관에 의한 사용금지 방안도 있다. 또 크롤러 웹사이트의 액세스를 제한하기 위한 조치(robot.txt 등)를 취하거나, 민법상 불법행위가 되지 않도록 안내하는 노력도 필요하다.

저작권자 © 애플경제 무단전재 및 재배포 금지