빅테크, AI업체들, ‘저작권 분쟁’ 피해 유료 데이터 거래 활성화
데이터 수집, 판매업계도 호황, “한켠에선 은밀한 무단 사용 여전”
생성AI 발전할수록 데이터 시장 성업, “‘골드 러시’ 방불”
[애플경제 전윤미 기자] 생성AI 등장 이후 빅테크들 간에 학습에 필요한 방대한 데이터를 확보하려는 경쟁이 치열하다. 그런 가운데 이들에게 돈을 받고 데이터를 공급하는 ‘데이터 라이선스’ 거래도 급성장하며 거대한 ‘데이터 시장’을 형성하고 있는 것으로 나타났다.
구글, 메타, 마이크로소프트, 애플, 아마존, 그리고 오픈AI 등 AI 관련 스타트업들에 이르기까지 다들 학습용 데이터를 조금이라도 더 많이 확보하려고 혈안이 되어있다. 이들은 초창기엔 주로 인터넷에서 무료로 스크랩한 다량의 데이터를 긁어모아 어떻게든 인간의 창의성을 모방할 수 있는 챗GPT와 같은 생성 AI 모델을 훈련시키려고 애를 썼다. 그러다 보니 저작권 보유자로부터 소송에 직면하기도 하는 등 문제가 많았다.
이에 테크 기업들은 유료서비스나 회원 가입이 필요한 콘텐츠를 유료로 구입하는게 추세가 되고 있다. 물론 로그인이 필요한 웹의 채팅이나, 소셜 미디어에서 오랫동안 잊혀진 개인 사진에 이르기까지 몰래 데이터를 수집하는 경우도 적지 않다.
콘텐츠 업계-데이터 라이선스 업계로 수직계열화
그러나 대부분은 인터넷 등에서 쉽게 스크랩할 수 없는 개인 컬렉션을 보유한 저작권 소유자를 찾는 경우가 크게 증가하고 있다. 그 중엔 콘텐츠 소유자들을 대리하며, AI 훈련을 위한 사진, 영화, 서적의 아카이브 라이선스를 갖고 수천만 달러 규모의 데이터를 거래하는 업계도 성장하고 있다.
마이크로소프트나 구글의 경우 자사의 ‘데이터 개인 정보 보호 조항’을 포함한 데이터 공급업체와의 계약 일부를 로이터통신에 밝히기도 했다. 구글은 “개인정보를 침해하는 등 계약을 위반할 경우 공급업체와의 계약 종료를 포함한 즉각적인 조치를 취할 것”이라고 했다.
아직은 이와 관련한 ‘데이터 시장’의 실태가 정확히 밝혀진 바는 없다. 다만 리서치 기관인 ‘비즈니스 리서치 인사이츠’는 현재 ‘데이터 시장’은 대체로 약 25억 달러로 보고 있다. 그러나 “10년 내에 300억 달러 가까이 성장할 것”이라고 예측하고 있다.
빅테크를 비롯한 대규모 LLM 기반의 생성AI 기반 모델 제작업체들은 하나같이 모델에게 엄청난 양의 콘텐츠를 공급할 수 밖에 없는 현실이다. 대부분의 모델 구축은 집약적인 컴퓨팅 성능이 필요하고, 보통 수개월이 걸리는 학습이 필요하다.
이들 업체들은 비영리 저장소인 ‘커먼 크롤’(Common Crawl)과 같은 곳에서 무료로 웹 페이지의 데이터를 스그랩하며 방대한 아카이브를 사용할 수도 있다. 그러나 그것 역시 자칫 기회비용이 엄청나게 들 수 밖에 없다.
그런 웹사이트에 게시된 콘텐츠 공급자나 정보를 소유한 사람들은 테크 기업들의 무단 접근과 스크래핑을 차단하기 위해 해당 웹사이트에 별도의 코드를 추가하도록 요구했다. 동시에 수많은 저작권 소송과 함께 차단 내지 규제 열풍을 불러일으켰다. 이에 할 수 없이 AI모델을 구축하는 테크 기업들은 콘텐츠 소유자와의 거래 과정에서 일어나는 분쟁과 다툼을 방지하기 위해 별도의 데이터 공급망을 모색하다보니, 관련 ‘데이터 시장’이 급성장하고 있다.
빅테크, 셔터스톡, 프리팩 등 ‘데이터 플랫폼’과 계약
대표적으로 챗GPT가 2022년 말에 출시된 후 불과 몇 달 동안 메타, 구글, 아마존, 애플을 포함한 테크기업들은 모두 이미지 저장 제공업체인 ‘셔터스톡’과 계약을 맺고, 해당 업체의 라이브러리에 있는 수억 개의 이미지, 비디오 및 음악 파일을 AI학습용으로 사용하고 있다.
이들 빅테크와 셔터스톡 간의 데이터 거래 규모는 처음에는 각각 2,500만 달러에서 5,000만 달러 정도였으나, 갈수록 그 규모가 커지고 있다. 빅테크 뿐 아니라 스타트업이나 소규모 테크기업들도 데이터 시장을 헤집으며, 데이트 수집에 목을 매고 있다.
로이터는 “셔터스톡의 또 다른 경쟁사인 ‘Freepik’의 경우 2개의 빅테크와 2억 개의 이미지 아카이브 대부분을 한 컷당 2~4센트에 제공하기로 합의했다”고 전했다. 이 회사는 또 “빅테크 외에도 유사한 거래를 하는 기업이 5개 더 있다”고 덧붙였다.
처음부터 셔터스톡과 거래해온 오픈AI는 현재 AP통신과 ‘opens new tab’, ‘Axel Springer’ 등을 포함해 최소 4개 언론사와 라이선스 계약을 체결했다. 로이터 뉴스(Reuters News) 역시 오픈AI 등과 AI 대형 언어 모델 학습용 뉴스 콘텐츠 라이센스 계약을 체결한 것으로 전해졌다.
AI 데이터 공급업체들은 팟캐스트나, 숏폼, 디지털 어시스턴트 활용 등 실제 콘텐츠에 대한 라이센스를 확보하느라 분주하다. 또 맞춤형 영상이나 음성 샘플을 아예 처음부터 생성하기 위해 단기 계약직 인력을 대거 고용하기도 한다. 예를 들어 미국 시애틀에 있는 ‘Defined.ai’는 “구글, 메타, 애플, 아마존, 마이크로소프트 등 다양한 기업에 데이터 라이선스를 제공한다”고 로이터에 밝혔다.
이미지 한 컷 1~2달러, 영화 한편 100~300달러 등
요금은 구매자와 콘텐츠 유형에 따라 다르지만 대체로 이미지 한 컷당 1~2달러, 단편 비디오당 2~4달러, 긴 영화의 경우 시간당 100~300달러 가량이다. 텍스트의 경우는 한 단어에 0.001달러(1센트)로 알려졌다. 민감한 처리가 필요한 누드 이미지의 경우 5달러에서 7달러가량이다. Defined.ai는 “수익은 콘텐츠 원본을 제공하는 업체와 나눈다”고 했다. 이는 “데이터를 제공한 사람들의 동의를 얻고, 개인 식별 정보를 제거하기 때문에 매우 윤리적으로 공급된 데이터셋”이라는 회사측 설명이다.
Defined.ai에 콘텐츠를 공급하는 한 업체는 또 다시 “사진이나, 팟캐스트, 의료 데이터 등을 생성한 소유자에게 총 거래 금액의 약 20~30%를 지불한다”고 했다. 특히 “폭력과 같은 금지된 콘텐츠를 차단하는 AI 시스템을 훈련하는 데 사용되는 이미지의 경우 특별한 가격에 거래된다”고 덧붙였다.
원본 데이터를 수집하기 위해 이 업체는 주로 경찰, 프리랜서 사진기자, 의대생으로부터 범죄 현장이나, 분쟁, 폭력, 수술 현장 이미지 등을 수집하는 것으로 알려졌다. “때로는 남미와 아프리카 등지에서 그래픽 이미지를 수집하기도 한다”고 했다. 지난해 10월 이-팔 전쟁이 시작된 후에는 가자지구의 프리랜서 사진가들로부터 사진을 받거나, 적대 행위가 시작될 때 이스라엘로부터도 일부 사진을 수집하기도 했다. 또 폭력적인 상황에서 부상자들을 돌보는데 익숙한 간호사를 고용해, 전문가의 시선으로 이미지를 익명화하고 주석을 달기도 했다는 얘기다.
원저작자 동의없어 법적․윤리적 문제 야기도
이처럼 라이선스를 취득한다고 해도 법적, 윤리적 문제가 완전히 해소되는 것은 아니다. 예를 들어 수 십 년이나 된 사진 파일업체 ‘Photobucket’의 인터넷 아카이브를 최신 AI 모델의 재료로 써먹는 것은 자칫 사용자 개인 정보 보호 문제를 제기한다는 지적이다.
실제로 AI 시스템은 훈련 데이터 중 게티 이미지의 워터마크, 뉴욕 타임즈 기사 문장, 실제 인물의 이미지 등을 그대로 표출하기도 한다. 이처럼 수십 년 전에 게시된 개인의 사적인 사진이나 텍스트 등이 그 어떤 사전 통지나 명시적인 동의 없이 생성 AI 출력에 포함될 수 있는 것이다.
이에 Defined.ai의 경우 ‘Photobucket’과 같은 플랫폼 회사로부터 콘텐츠를 획득하는 것을 피하고 있다. 대신에 라이선스 권리에 대해 더 명확한 주장을 갖고 있는 유명인사나 영향력 있는 사람들로부터 소셜 미디어 사진을 얻는 것을 선호한다는 얘기다. 그는 “플랫폼 콘텐츠의 사진 중엔 원본을 생성한 사람이 애초 유출을 승인한 적이 없는 경우가 많다”는 것이다.
그런 문제점에도 불구하고, 데이터 라이선스를 거래하는 데이터 시장은 날로 활성화되고 있다.
