각국 빅테크, AI개발업계, 불법․편법 불구 ‘데이터 수집’에 사력
AI품질․성능의 관건…소셜미디어․웹사이트 등 콘텐츠업계와 ‘갈등’
빅테크 ‘유료 구독’도, 그러나 많은 AI개발업계 무분별 ‘데이터 사냥’
[애플경제 이윤순 기자] 양질의 생성AI는 정확하고 품질좋은 데이터를 얼마나 확보하느냐에 따라 결정된다. 이에 각국의 AI개발업체들이나 빅테크는 사력을 다해 온갖 소스로부터 데이터를 수집하고 있다. 언론매체나 소셜미디어, 각종 대화형 챗봇, 논문과 자료, 보고서, 심지어 개인의 사소한 기록과 대화 등을 가리지않는다. 그러나 이같은 무분별한 데이터 쟁탈에 맞서, 개인정보보호와 데이터 주권 등을 위해 데이터를 보호하려는 노력도 이어지고 있어, 충돌과 갈등이 끊이질 않는다.
국내에서도 이 문제를 둔 해법을 마련하기 위해 정부도 나선 바 있다. 문화체육관광부는 이미 지난 2월 저작권 학계와 법조계·산업계 등의 전문가 16명으로 구성된 ‘AI-저작권 제도개선 워킹그룹’을 구성했다. 이들은 “AI 저작권 쟁점에 대한 종합대책을 마련하기 위해 ‘AI-저작권 법·제도 개선 방안 연구’를 병행할 것”이라는 설명이다. 그래서 “대국민 의견수렴 등을 거쳐 올해 중 AI와 저작권 쟁점에 대한 정책 방향을 발표할 예정이며, 2025년부터는 이를 기반으로 저작권 법제 개선안을 추진한다”는 것이다.
해외에선 이미 생성AI 출현 후 AI저작권 문제가 첨예한 갈등의 소재로 등장했다가, 최근엔 점차 그 해법을 찾아가는 추세다. 애초 생성AI의 성능은 인간 두뇌 시냅스에 해당하는 매개변수(파라미터)에 의해 결정되는 것으로 알려져있다. 그러나 매개변수가 아무리 증가하더라도 고품질 데이터를 지속 학습시키지 않으면 AI의 성능은 한계가 있다.
애초 빅테크나 AI개발업계는 “산업 전반의 발전을 위해 학습을 위해 데이터를 자유롭게 사용할 수 있게 허용해야 한다”는 태도다. 그러나 언론매체나 웹사이트, 소셜미디어 등 콘텐츠 업계에서는 허락 없이 무단으로 AI 학습에 사용하는 것을 비판하며 데이터 무단 사용에 대한 문제에 대응하고 있다.
빅테크들, 학습용 데이터 무단 활용하다 ‘곤욕’
그럼에도 빅테크나 글로벌 AI개발업계는 그 동안 수단․방법을 가리지 않고 데이터를 수집했다. 생성AI를 개발했던 오픈AI는 유튜브 영상과 팟캐스트 등의 콘텐츠를 무단 사용하여 AI 학습용 데이터로 활용하다가 문제가 되었다. 또 뉴욕타임스 등 언론기사를 허락없이 활용하다가 소송을 당하기도 했다.
본래 유튜브는 ‘플랫폼에 올라온 영상을 다른 독립된 기능을 위해 사용하는 것을 금지하고 있다’고 규정하고 있다. 또 자체 필터링 기능인 ‘위스퍼’와 같은 자동화 수단을 이용해 유튜브 영상을 후처리하는 것도 금지하고 있다. 그래서 오픈AI의 AI 학습 데이터 수집행위가 결국 문제가 되었다.
메타AI 역시 자체 페이스북·인스타그램 게시물뿐 아니라 소설, 에세이와 같은 저작물까지도 무단 사용하곤 했다. 최근엔 특히 유럽의 소셜미디어 정보를 AI 학습에 사용하려다 브레이크가 걸렸다. 이는 EU의 ‘데이터주권’ 문제와도 결부, 국제적 이슈가 되기도 했다.
당시 메타AI는 지난 6월부터 모든 유럽 사용자들에게 소셜미디어에 공개된 정보를 활용해 AI 모델을 훈련하겠다고 발표했다가 EU당국의 제재와 사용자들이 강한 반발에 부딪혀 계획을 보류했다.
유망한 AI개발업체로 주목받고 있는 스타트업 ‘퍼플렉시티AI’ 역시 유력 잡지인 ‘포브스’의 독점 유료 기사를 무단 사용하다가 논란이 되었다. 또 와이어드의 콘텐츠도 무단 수집하고 있다는 의혹도 사고 있다.
어도비도 AI저작권 문제로 갈등을 겪고 있다. 이 회사는 자체적으로 ‘사용자 콘텐츠를 AI 훈련에 사용할 수 있다’는 약관을 만들었다가, 논란이 되자 이를 수정한 바 있다.
지난 달 어도비는 서비스 이용 약관을 수정하며, “사용자 작업물을 열람하지 않고 이에 대한 소유권을 주장하지 않겠다”고 약속했다. 또한, 자사의 ‘파이어플라이’ 훈련에 고객 콘텐츠를 활용하지 않는다는 점도 재차 강조했다. ‘파이어플라이’는 “‘어도비 스톡’ 같은 라이선스 콘텐츠 데이터셋과, 저작권이 만료된 퍼블릭 도메인 콘텐츠만 학습한다”고 설명했다.
콘텐츠 업계 ‘다양한 AI봇 차단 장치’로 방어
이들 빅테크나 AI개발업계가 ‘창(槍)’이라면, 이에 맞서는 콘텐츠 업계는 ‘방패’라고 할 수 있다. 이들 ‘창’과 ‘방패’의 싸움은 좀체 승부가 나지 않을 것 같았지만, 최근에 ‘방패’격인 콘텐츠를 보호하기 위한 방안과 제도가 본격적으로 모색되고 있는 상황이다.
해외 사례를 보면, 미국의 유명한 온라인 커뮤니티 기업 레딧(Reddit)은 웹 크롤러의 사이트 액세스 허용 방법을 결정하는 웹의 핵심 부분인 ‘로봇.txt’ 파일을 업데이트했다. 이는 AI봇이 플랫폼에 접근하는 것을 차단하기 위한 것이다. AI봇은 인터넷에서 방대한 양의 데이터를 수집하기 위해 설계된 자동화 프로그램으로 LLM과 AI 기반 애플리케이션 구동을 위한 정보 수집에 활용되고 있다.
반면에 ‘방패’격인 ‘로봇.txt’ 파일은 검색 엔진이 사이트를 스케이프히고, 사용자를 콘텐츠로 안내하는 데 사용되었지만, AI 기술로 인해 콘텐츠의 실제 출처를 인식하지 못한 채 스크랩되고 모델을 훈련하는 데 사용되고 있는 실정이었다. 이에 레딧은 “AI봇이 레딧의 퍼블릭 콘텐츠 정책을 준수하지 않고 플랫폼과 합의하지 않으면 요금 제한 또는 차단조치를 할 것”이라고 경고했다. 또 “앞으로 모델 학습 및 기타 상업적 목적으로 레딧의 콘텐츠를 사용하기 위해서는 라이선스 계약을 체결해야 한다”고 명시했다.
미국 인터넷 보안 전문 기업 ‘클라우드플레어(Cloudflare)’는 아예 빅테크가 사용하는 AI봇을 차단하는 기능을 최근 출시했다.
클라우드플레어가 공개한 AI봇의 활동 데이터에 따르면 올해 6월 한 달간 클라우드플레어 사용자 중 약 39%가 AI봇에 의해 홈페이지 스크랩을 당했다. 그 중 2.98%만이 AI봇의 홈페이지 스크랩을 자체적으로 차단한 것으로 확인되었다. 클라우드플레어에 따르면 바이트댄스의 ‘바이트스파이더’를 비롯, 아마존의 ‘아마존봇’, 앤트로픽의 ‘클로드봇’, 오픈AI의 ‘GPT봇’ 등은 인터넷상에서 가장 많은 콘텐츠를 긁어간 AI봇으로 조사되었다.
이에 홈페이지의 데이터에 AI봇이 마음대로 접근할 수 없도록, 이를 차단할 수 있는 기능을 사용자들에게 제공하고 있다. 특히 AI봇 차단 기능이 활성화되면 클라우드플레어 자체 기술로 ‘봇 점수’를 계산해 AI봇을 식별하고 차단한다.
이에 뉴욕타임스와 로이터통신, CNN방송, 비즈니스 인사이더 등의 대형 언론사들도 저작권 보호를 위해 AI봇의 정보 수집을 차단하고 있다. 이들 언론사들은 이를 통해 ‘웹 크롤링’을 차단, 자사의 뉴스 콘텐츠 보호에 나서고 있다.
상황이 여의치 않자, 최근 빅테크들은 비로소 돈을 지불하고 콘텐츠와 데이터를 구매하는 쪽으로 선회하고 있다.
오픈AI는 ‘레딧’과 파트너십을 체결했다. 또한 세계 최대 미디어그룹 뉴스코퍼레이션과 콘텐츠 계약을 맺기도 했다. 구글도 레딧에서 유통되는 콘텐츠를 구매하기 위해 연간 약 6천만 달러의 라이선스 계약을 체결했다. 애플도 글로벌 이미지·영상 콘텐츠 업체인 ‘셔터 스톡’의 데이터를 연간 5,000만 달러에 구매하기로 했다.
한편 각국 주요 정부들도 AI 학습용으로 데이터를 무단으로 활용하는 행위를 제어하고 있다. 이를 위해 가이드라인을 마련하거나, 제도적 규제를 하고 있다. 특히 미국, EU, 브라질 등 주요국은 정부 차원에서 빅테크의 AI 학습을 금지하기 시작했다.
