“누구나 자유롭게 접근, 활용하는 개방형 ‘커먼 크롤’ 장점 십분 활용해야”
“한국어 데이터 대규모 웹크롤 통해 개인, 중소, 중견기업 리소스 지원”

사진은 '2022 국제인공지능대전'에 출품한 한 스타트업 부스로서 본문 기사와는 직접 관련없음.
사진은 '2022 국제인공지능대전'에 출품한 한 스타트업 부스로서 본문 기사와는 직접 관련없음.

[애플경제 이보영 기자]웹사이트나 하이퍼링크, 데이터, 정보 자원을 자동화된 방법으로 수집, 분류, 저장하는 소프트웨어인 크롤러는 데이터 경제의 중요한 기능 중 하나다. 특히 오픈소스가 그렇듯이, 웹에서 크롤링한 데이터를 누구나 쉽게 접근하고 분석하도록 공개 저장소에 유지·관리하는 ‘커먼 크롤(common crawl)은 디지털 문명의 지식을 모든 사람이 자유롭게 학습, 이용, 협업할 수 있는 개방형 플랫폼으로 높이 평가받고 있다. 그런 가운데 최근엔 한국어 기반의 커먼 크롤 플랫폼이 절실히 필요하다는 주문이 많아 관심을 끌고 있다.

한국지능정보사회진흥원이 최근 ‘AI레포트’에서 특별히 그 필요성을 강조한 것도 그런 점에서 눈에 띄는 대목이다. 이에 따르면 현재의 대부분 커먼크롤 데이터는 UI가 불편하고 그마저 영어 위주로 수집되어 공개되고 있다. 영어가 45~46%이고, 러시아 6.8%, 일본어 4.8%인데 비해 한국어 데이터는 0.64%만 수집되어 공유되고 있는 실정이다. 그래서 “한국어 위주의 데이터 수집, 웹 크롤링 데이터 공개, 적법성 검토, 표준화 등이 필요하다”는 주장이다.

윤창희 AI미래전략센터 연구원은 “(한국어 데이터의) 활용도를 높이기 위해선 수집된 웹 크롤링 데이터의 다양한 코드나, 프로그램 예제를 개발하고, 툴과 API를 개발·공개해야 한다”고 강조하면서 “필요하면 웹 크롤링 활성화를 위해 사례 해커톤 대회를 추진하고 수상 작품을 지속적으로 공개하는 것도 방법”이라고 권했다. 그는 특히 비영리 기관의 역할을 강조했다. 즉 “비영리 개방형 국내 커먼크롤을 운영할 경우 대규모 웹크롤러 운영이 어려운 개인, 중소, 중견기업 등의 리소스 확보가 용이해진다”면서 “그렇게 되면 이들 경제적 약자들이 자연어 처리연구나 트렌드 분석, 창업을 위한 상품·시장 분석 등에 폭넓게 활용할 수 있게 된다”고 기대했다.

윤 연구원은 이에 한국형 커먼크롤 플랫폼을 구축하기 위한 전체 프로세스를 단계별로 구분하여 제시하고 있어 눈길을 끈다. 그는 특히 “미국 커먼크롤 서비스 항목과 비교하여 한국형 커먼크롤 구축방향을 분석, 설계해야 한다”고 덧붙여 자신의 방법론에 대한 신뢰도를 높이고 있다.

그에 따르면 우선 한국형 커먼크롤을 위한 분석과 설계가 첫 번째 과업으로 떠오른다. 이는 웹 크롤링 관제 시스템 표준 정의, 즉 명명규칙, 크롤링 결과 저장 표준, 프로토콜 방식, API, 수집·가공·공개 프로세스 정의 등을 포괄한다. 하드웨어 및 소프트웨어 구성, 네트워크 구성과 같은 웹 크롤링 관제 시스템 아키텍처도 수립해야 한다.

그런 다음엔 크롤링 대상을 선정한다. 즉 TLD(Top level domain)을 정하고, 뉴스, SNS, 블로그, 검색업체, 기타 정보 제공 웹 사이트 등 수집대상 도메인을 고르는 것이다. 세 번 째는 적법성 검토다. 이는 저작권법 등 민법상의 규정에 저촉되는지를 검토하는 것이다. 즉 크롤링 결과를 공개했을 때 현행 법규에 비춰 문제가 없을지를 반드시 검토해야 한다.

인프라 구축도 중요하다. 웹 크롤링된 데이터의 저장을 위한 서버 및 저장소, 그리고 대규모 네트워크 트래픽을 감당할 수 있는 네트워크 기반을 구축하는 일이다. 이런 조건이 갖춰지면 웹 크롤러를 구축한다. 즉 대규모 웹 크롤링을 수행할 수 있는 웹 크롤러를 개발하고, 크롤링 결과를 관리할 수 있는 관제 시스템을 개발한다.

이런 구축 작업이 완료되면 본격적으로 웹 크롤러를 위한 수집에 들어간다. 이때는 ‘seed’나, 수집 빈도 등에 대한 설정도 해야 하고, 오류 모니터링과 수정을 하고, 수집된 결과를 저장할 수 있는 용량 모니터링도 반드시 해야 한다. 그런 후엔 정제와 가공작업에 들어간다. 즉, 수집된 웹 페이지에 대하여 URL을 조사하여 중복된 웹페이지나, 유사한 정도가 큰 웹페이지를 삭제하고, 비식별화를 수행한다. 그런 다음 최종 단계에서 외부에서 접근 가능한 프로토콜(https, s3 등)을 이용하여 공개하거나, 공개주기(보통 월별)별로 저장소에 추가하는 것이다.

윤 연구원에 따르면 커먼크롤 방식의 주기적 데이터 개방은 불특정 다수의 웹크롤링 발생 빈도수를 감소시켜 비용과, 노력, 서버 부하를 절감시킨다. 흔히 “특정 주제 분야에 불특정 다수의 웹크롤링이 몰리면서 다수의 웹사이트에 부하를 유발하곤 하는데, 그런 일을 최소화할 수 있다”는 것이다. 특히 한국어에 의한 커먼 크롤이 늘어날수록 국내외의 중요한 커먼크롤 플랫폼과 연계를 통한 공공부문 데이터 활용도 역시 활발해진다. 반면에 현재 국내 민간기업에서 제공하는 데이터의 경우에는 데이터 반출에 제약이 가해지고 있다.

저작권자 © 애플경제 무단전재 및 재배포 금지