창작자들, AI개발업체에 맞서 ‘데이터오염’ 또는 ‘중독’ 확산
오염된 데이터로 훈련한 AI, 전혀 엉뚱한 결과물 쏟아내
‘Nightshade’, ‘No AI’, ‘Kudurru’, ‘Kin.art’ 등 오염도구 다수 출시

아티스트들에 의해 X를 통해 공개된 오염된 데이터로 훈련된 AI모델이 출력한 이미지.
아티스트들에 의해 X를 통해 공개된 오염된 데이터로 훈련된 AI모델이 출력한 이미지.

[애플경제 전윤미 기자] 의도적으로 다른 사람이 먹을 음식에 독을 타는 것은 큰 범죄행위다. 그러나 누군가가 계속해서 자신 점심 도시락을 훔쳐간다면, 이물질을 섞어둔다든가 하는 정도의 사소한 복수를 상상할 수는 있지 않을까. 실제로 최근 AI모델 학습을 위한 데이터 수집 과정에서 이런 일이 벌어지고 있다. 이른바 ‘데이터 오염’(Nightshade 등)이다.

옵트아웃 등 저작권 존중? “개발업체 선의 믿을 수 없어”

국내에선 아직 그 뚜렷한 사례를 찾기가 어렵지만, 미국과 유럽 등 해외에선 이미 사회적으로 문제가 될 만큼 이는 광범위하게 확산되고 있다. 가장 큰 원인은 원작자인 아티스트의 동의없이 AI 모델 훈련을 위해 해당 작품을 마구 갖다 쓰는 일을 막기 위한 것이다.

물론 많은 AI개발업체들이 원작자의 동의없이는 작품을 데이터로 활용하지 않겠다는 ‘옵트아웃’이나, ‘스크랩 방지 코드’를 설치, 준수하고 있음을 표방하고 있다. 그러나 아티스트 등 창작자들은 “그런 선의만을 믿기엔, 개인 정보를 이용해 이익을 추구하려는 기업의 욕구가 너무나 크다”며 믿지 않는 분위기다.

특히 소정의 커미션을 얻기 위해서, 혹은 창작의 기회를 위해 소셜 미디어에 전적으로 의존할 수 밖에 없는 대부분의 아티스트들은 이런 데이터 남용 앞에서 속수무책일 수 밖에 없다.

본래 이는 미국 시카고 대학의 프로젝트에서 처음 생겨났다. “이미지 데이터를 오염시켜 AI 모델 훈련을 쓸모없게 하거나 방해하도록 함으로써 예술가들이 어느 정도 의지할 수 있는 수단을 제공한다”는 취지다. 이 프로젝트를 이끌었던 이 대학의 컴퓨터과학 교수인 벤 자오는 “직장의 냉장고에서 음식을 훔쳐가는 것을 방지하기 위해 점심 식사에 매운 소스를 넣는 것”에 비유했다.

“AI망가뜨리는게 아니라, 정당한 대가 요구”

그렇다고 이들이 AI 자체를 망가뜨리려는 것은 아니다. 단지 기업들이 스크랩한 이미지로 AI 모델을 훈련시키는 대신, 원작자에게 라이센스 비용을 지불하도록 강요할 뿐이다.

“진짜 목표는 AI개발업체의 동의와 보상에 관한 것”이라며 “콘텐츠 제작자가 승인하지 않은 모델 학습을 거부할 수 있는 방법을 제공할 뿐”이라는 얘기다.

그는 특히 “그나마 오픈AI처럼 큰 기업들은 나은 편이다. 그보다 훨씬 작고 규칙 준수에 대한 지침따위는 없는 (스타트업 수준의) 회사들이 문제”라면서 “그들은 이러한 최소한의 준칙도 준수할 의도가 전혀 없으며, 여전히 작가의 콘텐츠를 마음대로 가져가고 원하는 것은 무엇이든 하곤 한다”고 했다.

예을 들어 스태빌리티AI, 미드저니, DeviantArt 등이 그런 기업들이다. 이들을 상대로 한 집단 소송에 참여하고 있는 예술가 켈리 맥커맨은 음영 처리나 윤기를 더해 오염시킨 이미지의 사례를 X에 공개했다.

이를 보면 AI가 오염된 데이터를 무단 사용한 결과, 모나리자가 음영 처리된 바탕의 가운을 입은 고양이로 나타났다.

그러나 ‘Nightshade’에 의해 오염된 부위는 대부분 육안으로는 판별되지 않는게 많다. ‘Nightshade’는 언뜻 눈에 보이지 않는 데이터 오염을 위한 무료로 다운로드할 수 있는 도구도 된다. 이는 육안으로 봐선 예술 작품의 품질이 그대로 유지되지만, 은밀한 기법으로 작품을 오염시켜놓는다. 그래서 모델 학습 후 AI가 구현한 이미지에서 비로소 오염된 모습이 나타나는 것이다.

실제로 일부 일러스트레이터들은 자신의 작품 중 하나에 ‘Nightshade’로 눈에 안 보이게 올염시킨 모습과 그 결과 X에 게시하기도 해 관심을 끌었다. ‘Nightshade’의 가장 낮은 수준의 기본 설정을 통해 이미지를 실행하면, 일러스트레이션에 거의 영향을 미치지 않았다. 그러나 높은 설정에서는 변경 사항이 뚜렷이 나타났다.

아티스트들에 의해 X를 통해 공개된 오염된 데이터로 훈련된 AI모델이 출력한 이미지.
아티스트들에 의해 X를 통해 공개된 오염된 데이터로 훈련된 AI모델이 출력한 이미지.

‘오염’ 부위, 육안으론 판별 안돼

사실 많은 예술가들은 ‘미드저니’나 ‘달리’와 같은 AI 이미지 생성기가 대중에게 출시되면서 자신의 그림과 눈에 띄게 유사한 이미지들이 난무하는 모습을 지켜봐야 했다. 심지어 수 십개의 자기 작품이 스크랩되어 AI 모델을 훈련하는 데 사용되었다는 사실을 뒤늦게 알곤 허탈해하곤 했다. 심지어 AI가 생성한 콘텐츠에서도 자신의 흔적이 드러났다.

이런 현상은 AI모델 학습용 데이터에 대한 저작권 문제가 본격화되기 전인 국내에서도 유사한 사례가 많을 것으로 추즉된다. 정작 작가들 스스로 이에 대한 조직적 저항과 권익 옹호 움직임이 있지 않을 뿐이다.

그래서 해외의 사례는 일종의 반면교사가 되고 있는 셈이다. 현지 예술가와 창작자들은 그래서 “‘데이터오염’(Nightshade)은 저작권 보호를 위한 적절한 규제가 있을 때까지 취할 수 있는 최소한의 보호 조치”라고 한다. 이들은 “(저작권 침해에 대한 인식이 없는) 기업들에게 우리가 본격적으로 반격할 것이라는 메시지를 보내는 것”이라고도 한다.

이에 최근 미국 등 해외에선 무단 복제나 도용을 막기 위한 다양한 ‘데이터오염’ 도구들이 개발, 확산되고 있다.

‘Nightshade’ 외에도 작년에 출시된 ‘No AI’ 워터마크 생성기는 AI모델을 훈련하는 데 사용되는 데이터 세트가 AI를 생성하면, 레이블을 지정하는 워터마크를 적용한다. 또 무단 스크랩하는 사람의 IP 주소를 식별하고 추적하는 도구인 ‘Kudurru’도 있다. 웹사이트 소유자는 표시된 IP 주소를 차단하거나, 가운데 손가락을 치켜세운 이미지를 다시 보내도록 선택할 수 있다.

이번 주에 출시된 또 다른 도구인 ‘Kin.art’는 다른 접근 방식을 취한다. 이미지를 암호화하여 수정하는 ‘Nightshade’ 등과는 달리 이는 이미지의 일부를 가리고 메타태그를 교환하므로 AI모델 학습에 사용하기가 더 어렵게 한다.

최근엔 아티스트들이 자신의 작품을 온라인으로 공유하기 전에 ‘Nightshade’ 외에도 ‘Glaze’를 모두 사용하는 경우가 늘어나고 있다. 아예 창작자들을 위해 이들 데이터오염 도구들을 통합한 기법이 널리 공유되고 있다. 또 ‘Steg.AI’와 ‘Imatag’는 인간의 눈에 감지할 수 없는 워터마크를 적용, 창작자가 이미지에 대한 소유권을 분명히 노출하도록 한다.

AI업계 일각 “사이버테러, ‘해킹’ 다름없어” 비난

창작자들은 “눈에 최대한 안 띄도록 먼저 ‘Nightshade’를 사용한 다음 ‘Glaze’를 사용하라”거나, “‘Nightshade’는 무단 복제나 모방을 완전히 예방하므로 다양한 데이터오염 도구를 함께 사용할 것”을 조언하기도 한다.

이들은 또 “이미지의 메타데이터에 추가된 서명과 워터마크는 깨지기 쉬우므로, AI모델 학습 과정에서 이미지가 변경되면 없어질 수도 있다”면서 “‘Nightshade’의 변경 사항은 이미지를 구성하는 픽셀을 수정하기 때문에 모델 훈련을 하려면 자르기, 압축, 스크린샷 또는 편집을 해야 한다. 음영 처리된 이미지를 표시하는 화면 사진도 이처럼 모델 훈련에 지장을 줄 수 있다”는 팁도 공유되고 있다.

그럼에도 불구하고, “생성AI 모델이 더욱 정교해짐에 따라 AI개발업체들의 부도덕한 모방과 사용을 미처 창작자들이 막아낼 순 없을 것”이라는 하소연도 나오고 있다. 더욱이 AI업계 일각에선 “(‘Nightshade’와 같은 도구는) 이 프로그램이 ‘바이러스’”라거나, “이를 사용하면 ‘오픈 소스 커뮤니티’에 해를 끼칠 것”이라고 비판하기도 한다. 앞서 ‘Nightshade’가 출시되기 몇 달 전부터 온라인 상에선 “이는 사이버 전쟁이나 테러로서, 취약한 컴퓨터 시스템을 해킹하여 작동을 방해하는 것”이라고 비난이 나돌기도 했다.

저작권자 © 애플경제 무단전재 및 재배포 금지