많은 경우 코드 아닌 가중치 공개, 학습 데이터 비공개
“코드 저장소 공유” 딥시크 출현으로 새삼 비판 쏠려
라마, 감마, 미스트랄 등 ‘半공개’, OSI ‘오픈소스 정의’도 비판
[애플경제 전윤미 기자] 오픈소스 생태계에선 진정한 의미에서 개방된 ‘오픈소스’가 아닌 경우가 너무나 많다는 목소리가 날로 커지고 있다.
이는 지난해 10월 국제적으로 오픈소스의 개념을 정의하고 그 투명성을 검증하는 시스템인 ‘오픈소스 이니셔티브’(OSI)가 새롭게 ‘오픈소스 AI’에 대한 정의를 내놓은 후 더욱 증폭되고 있다. 그로부터 6개월 가량이 지나면서 ‘OSI 정의’에 대한 불만과 지적이 늘어나고 있다. “‘오픈소스’의 정의와 용어가 부적적하고, 이를 바탕으로 한 오픈소스 관리와 분류에도 혼선이 빚어지고 있다”는 것이다.
OSI, ‘획득 가능형’, ‘공유 불가형’도 제시해 ‘비판’
당시 OSI는 ‘새로운 정의’를 통해 우선 “AI 훈련 데이터에 초점을 두고, 이를 공유하고 공개해야 한다”는 점을 대원칙으로 내걸었다. 너무나 당연한 원칙이다. 또한 “수신자가 (학습)훈련이 어떻게 수행되었는지 이해할 수 있을 정도로 코드가 완전(히 개방되어야)해야 한다”고 명시했다.
그러나 그 세부적인 정의와 분류에 있어서 논란과 혼선을 불러일으킬 만했다. OSI는 학습 데이터와 관련, ‘개방형’, ‘공개형’, ‘획득 가능형’, ‘공유 불가형’의 네 가지 유형을 제시했다. 즉, 데이터를 무조건 개방, 공개하는게 아니라 획득 가능한 조건부 또는 아예 공유가 불가능한 특별한 조건까지도 ‘오픈’의 개념으로 포괄한 것이다.
우선 OSI가 제시한 조건 중 앞의 두 가지는 널리 공감을 살 만한 것이다. 즉 이는 “법률에서 허용하는 형태로 공유해야 한다”는 전제에 따른 것이다.
두 가지 주요 특징 가운데 첫 번째는 AI 개발 과정에서 데이터를 학습하고 처리하는 데 사용되는 ‘코드’는 오픈 소스 수신자가 AI학습이 어떻게 수행되었는지 이해할 수 있을 정도로 완전해야 한다는 것이다. 즉, AI 학습에 적용된 ‘코드’를 공개하고 공유해야 한다는 것이다.
그러면서 OSI는 “혁신이 일어나는 곳은 학습의 과정”이라며, 따라서 “오픈 소스 사용자가 AI 시스템을 연구하고 수정할 수 있도록 학습에 사용되는 코드에 대한 투명성이 필요하다”고 말했다.
“학습과정 중요, 데이터 비공개는 문제”
정의의 또 다른 특징은 이른바 “‘카피레프트’(copyleft)와 유사한 조건‘의 요구 사항이 허용된다”는 것이다. ’카피레프트‘는 ’카피라이트‘(저작권)과 저작물의 소유권은 저작자가 갖되, 그 파생된 저작물(혹은 2차 저작물)에 대해선 동일한 자유를 적용해야 한다는 조건이다. 즉, 창작물의 자유로운 수정, 복제, 공유, 재배포를 허용하는 법적 장치다.
’카피레프트‘의 대상은 학습 코드와 데이터 세트를 망라한다. 단, OSI의 정의는 “릴리스 후보 단계”, 즉 배포 직전 단계로서, 이는 추가 기능이 더해지지 않고, 단지 버그 수정만 허용되는 것이다.
그러나 진작부터 전문가들은 이같은 OSI 정의 가운데, 특히 데이터 유형을 ‘획득 가능’한 데이터나 ‘공유 불가능’한 데이터로 분류하는 것에 대해 문제를 제기하기도 한다. 오픈소스 생태계에 정통한 데이터베이스 솔루션 업체들인 페르코나(Percona), 오픈UK 등은 진작부터 앞장서서 이의를 표하며, 정의의 수정을 요구하고 있다.
이들에 의하면 실제로 링크된 FAQ에서 OSI는 “‘획득 가능한 데이터’는 비용을 지불하고 공개할 수 있지만, ‘공유할 수 없는 데이터’는 자세한 설명의 형태로만 공개할 수 있다”고 명시하고 있다. 획득 가능한 데이터는 돈을 내고 구매해야 하며, 공유 불가한 데이터는 자세한(수준이나 정도에 대한 언급없이) 설명만 하면 오픈소스로 인정하겠다는 뜻이다.
그러나 이는 “실제 사용자들로선 큰 차이가 있으며, 학습 데이터를 모든 사람이 자유롭게 사용할 수 없다면 그걸 ‘오픈소스’라고 할 수는 없다”는 비판이다. OSI가 무료 사용 (오픈소스) 모델의 표준만을 다시 분류, 오픈소스의 적절한 정의를 새롭게 구축해야 한다는 지적이다. 그렇지 않을 경우 막대한 학습 비용을 감내할 수 밖에 없다.
‘OSI 정의’와 자격에 대한 근본적 질문도
나아가선 오픈소스 정의와 검증을 주도하고 있는 OSI 자체에 대한 근본적 질문도 나오고 있다. 즉 정의의 내용에 대한 이의 제기뿐만 아니라 “과연 ‘오픈 소스 AI의 정의’가 있어야 하는지 여부, 그리고 정의가 있다면 OSI가 이를 규정하는데 적합한 조직인지”를 따져봐야 한다는 것이다. 나아가선 “광범위한 오픈 소스 소프트웨어 커뮤니티가 OSI를 그런 정의 규정과 관리의 당사자로 인정할 것인지도 문제”라는 목소리다.
특히 페프코나는 “OSI의 명시된 목적은 오픈 소스 (AI가 아니라) 소프트웨어에 관한 것”이라며 “물론 오픈 소스 원칙을 제시하는 것도 하나의 역할로 인정할 순 있지만, AI까지 포괄해 완전히 새로운 정의를 관리하는 것이 OSI가 할 일인지는 의심스럽다”는 주장도 나오고 있다. 일각에선 그래서 “OSI는 오픈소스 소프트웨어에만 집중해야 한다”는 얘기도 있다.
특히 오픈소스의 정의에 대한 이같은 비판적 시선은 ‘딥시크’가 출시되면서 한층 두드러졌다. 딥시크는 아예 ‘코드 저장소’를 오픈 소스화함으로써, 공개 범위에 제한을 두고 있는 기존 주요 대형 AI모델들에게 충격을 안겼다. 이를 통해 딥시크는 모델 투명성에서 경쟁사보다 앞서 나갈 수 있다고 자부하고 있다.
딥시크 출현으로 새삼 ‘오픈소스 정의’ 논란 불붙어
지난달 말 X에 게시한 게시물에서 딥시크는 “완전한 투명성을 갖춘, 작지만 진지한 진전의 일환으로 코드 저장소 5개를 오픈 소스화할 것”이라며 “이를 위해 구성 요소는 문서화되고, 배포되었으며, 프로덕션에서 실전 테스트를 거쳤다.”고 밝혔다.
업계 전문가들은 “이는 일부 대규모 독점적 미국의 AI 모델들과 극명한 대조를 이루고 있다”고 인정했다. 실제로 모델의 기반 코드를 오픈 소스화한 딥시크와 달리 기의 대부분 모델은 제한된 범위의 오픈소스를 지향화고 있다.
예를 들어 프랑스 경쟁당국이 조사한 바에 따르면 ‘Mistral AI’는 가장 강력한 ‘Mistral Large’를 제외한 일부 모델만을 오픈 소스 형태로 공개하고 있다. 메타의 경우도 마찬가지다. 메타는 라마(Llama) 모델을 오픈 소스로 제공하고 있으나, 70억 이상의 이용자를 가진 애플리케이션에 대해서는 상업적 사용을 제한하고 있다. 구글의 감마(Gamma)나, 마이크로소프트의 ‘Phi’ 역시 작은 규모의 언어 모델만을 오픈 소스로 제공하는 경우가 많다.
이에 비해 딥시크는 모델의 기반 코드를 오픈 소스로 공개하겠다고 약속함으로써 한 걸음 더 나아간 셈이다. 이에 오픈UK는 “정확히 말하면, 라마는 ‘오픈 코드’가 아니라 ‘오픈 가중치’를 공개할 뿐이며, 실제 훈련 코드나 학습 데이터셋은 여전히 비밀”이라고 지적했다. 이를 두고 실질적으론 공개되지 않았다는 의미에서 ‘open-washing’(무늬만의 오픈소스)이라는 표현도 나오고 있다.
