기존 오픈소스SW 정의 외에 ‘오픈소스AI’ 정의 새로 추가, ‘논란’ 일어
일각선 ‘결함 투성’ 지적도…‘AI 학습데이터 공유 불가 조건도 문제’

사진은 본문과 직접 관련은 없음.
사진은 본문과 직접 관련은 없음.

[애플경제 전윤미 기자] 오픈소스 관리만을 위한 국제적인 비영리단체인 OSI(Open Source Initiative)는 공정한 오픈소스의 국제적 정의(OSD, Open Source Definition)를 제시한 바 있다. 그러나 최근 이 단체가 ‘오픈소스 AI’ 부문에까지 관심을 갖고, 나름의 ‘정의’를 규정하면서 논란이 일고 있다. 적잖은 전문가들은 특히 “이 단체의 ‘오픈소스 AI’에 대한 새로운 정의는 ‘결함’이 있다”고 노골적으로 반발하고 있다.

OSI는 지난 2022년 ‘자유로운 재배포’, ‘소스코드 공개’, ‘2차 저작물 허용’, ‘저작자 소스코드의 온전함’, ‘차별금지’, ‘라이선스의 배포’ 등 6가지를 오픈소스로서 합당한 국제적 기준이자 정의로 제시했다. 그러나 최근 오픈소스 AI를 포함한, 새로운 정의를 이에 추가하는 과정에서 논란이 일고 있다.

새로운 정의는 AI 훈련 데이터에 초점을 맞추고, 훈련 데이터를 공유하고 공개해야 한다는 점을 명확히 했다. 또한 “오픈소스 사용자 등은 훈련이 어떻게 수행되었는지 이해할 수 있을 정도로 코드가 완전해야 한다”고 명시했다.

그러나 전문가들은 ‘결함’을 지적하고 있다. “OSI가 오픈소스 AI의 경우 훈련 데이터 주변 정보를 공개하도록 의무화하고 있지만, 본래의 정의에 맞지 않은 운영이나, 왜곡의 소지가있는 내용을 포함하고 있다”는 지적이다.

오픈소스AI의 정의에 안맞는 ‘일괄 적용’ 방식 ‘문제’

그 중 글로벌 오픈소스 SW 전문업체인 퍼코나가 대표적이다. 이 회사는 최근 “OSI는 오픈소스와 AI의 스펙트럼의 정의에 맞지 않는 ‘일괄 적용’ 방식을 계속하고 있다.”고 IT프로에 문제를 제기했다.

이에 따르면 OSI의 새로운 정의는 특히 ‘훈련 데이터’와 관련, 개방형, 공개형, 획득 가능형 또는 공유 불가형의 네 가지 유형을 고려하고 있다. “각각에 대한 법적 요구 사항은 다르지만, 모두 새로운 조건을 준수하기 위해 법률에서 허용하는 형태로 공유해야 한다”는 OSI의 입장이다.

특히 OSI는 새로운 정의에 반영된 두 가지 주요 특징을 강조하고 있다. 그 첫 번째는 AI 개발과정에서 데이터를 훈련하고 처리하는 데 사용되는 코드가 오픈 소스 ‘수신자’가 훈련이 어떻게 수행되었는지 이해할 수 있을 정도로 완전해야 한다는 것이다. OSI는 “훈련은 곧 혁신이 일어나는 곳이므로, 훈련에 사용되는 코드에 대한 투명성이 오픈 소스 사용자가 AI 시스템을 연구하고 수정할 수 있도록 하는 데 필요하다”고 이유를 밝혔다.

또 하나의 특징은 '카피레프트와 유사한 조건의 요구 사항’을 허용한다는 것이다. ‘카피레프트’는 저작물을 수정, 변형하거나, 2차적저작물을 만들어 배포할 때에 원 저작물과 동일한 라이선스 조건으로 배포해야 한다는 제약조건이다. 이때 오픈소스처럼 자유 소프트웨어나 자유 콘텐츠에서 사용되는 카피레프트도 ‘동일조건 변경허락 조건’이 따라붙기도 한다. OSI에 따르면 여기서 ‘훈련 코드’와 ‘데이터 세트’가 법적 의미에서 함께 묶인다. OSI의 새로운 정의는 ‘릴리스 후보’ 단계를 염두에 둔 것인데, 이는 배포 후 새로운 기능이 추가되지 않고 버그 수정만 있는 경우를 의미한다.

(사진=어도비스톡)
(사진=어도비스톡)

‘획득 가능’, ‘공유 불가’ 구분도 문제

그러나 ‘퍼코나’는 정의의 여러 용어, 특히 ‘획득 가능한 데이터 유형’과, ‘공유 불가능한 데이터 유형’으로 분류하는데 대해 문제를 제기한다. OSI는 자체 FAQ를 통해 “OSI는 획득 가능한 데이터는 비용을 지불하고 공개할 수 있는 반면, 공유 불가능한 데이터는 자세한 설명의 형태로만 공개할 수 있다”고 명확히 밝혔다.

이에 퍼코나는 “모든 사람이 무료로 학습 데이터를 사용할 수 없다면 ‘오픈 소스’라고 할 수 없다. 이는 실제 사용자에게는 큰 차이가 있는 내용”이라고 지적했다. 그래서 이런 무료 사용 모델에 대한 ‘표준’을 분류할 수 있는, 적절한 정의를 새롭게 구축해야 한다는 주장이다.

비영리 국제 오픈소스 저작권 단체인 ‘OpenUK’도 이에 대해 좀더 근원적인 문제적을 지적하고 나섰다. “OSI의 ‘오픈소스 AI’에 대한 새로운 ‘정의’ 시도는 매우 포괄적인 문제에 대한 논의의 필요성을 제기하고 있다”고 반발하고 나섰다.

즉, “‘오픈 소스 AI 정의’가 과연 필요한지 여부, 그리고 정의가 있다면 OSI가 이를 만드는 데 적합한 조직인지, 만약 더 광범위한 ‘오픈 소스 소프트웨어 커뮤니티’가 나소, 이런 정의의 관리자 역할을 하는데 대해 (OSI가) 지지하는지 여부 등에 대한 논의가 포함된다”는 것이다. 한 마디로 “OSI가 오픈소스 AI에까지 오지랖을 넓히느냐”는 것이다.

이들은 “OSI의 명시된 목적은 ‘오픈 소스 소프트웨어’에 관한 것”이라고 주장했다. “오픈 소스 원칙을 옹호하는 것은 정당한 목적이 될 수도 있지만, AI를 두고 완전히 새로운 정의를 관리하는 것이 애초의 취지에 합당한지는 의심스럽다”는 것이다.

그래서 이들 단체들은 “OSI가 AI가 아닌, ‘오픈소스 소프트웨어’에 집중해야 한다”고 주장한다. AI 오픈소스까지 감당하는 것은 현재의 OSI 수준의 작은 조직이 관리하기엔 벅차다는 얘기다. 단지 OSI는 “오픈소스 정의(OSD)의 수호자 역할을 하는 것”이 중요하다면서 “현재의 오픈소스 소프트웨어 커뮤니티는 새롭게 제기된 ‘오픈소스 AI 정의’에 의해 사분오열로 의견과 주장이 엇갈리고 있어 문제”라고 우려했다.

저작권자 © 애플경제 무단전재 및 재배포 금지