일부 요소만 개방, ‘사실상 폐쇄형 내지 유료 모델’ 많아
최근 빅테크 출시 AI모델 중 ‘진정한 오픈소스’ 드물어
[애플경제 이윤순 기자] LLM기반의 생성AI 기술이 발달하면서, 사실상 ‘무늬’만의 오픈소스 내지 유료에 가까운 폐쇄적 모델이 많다는 지적이다. 특히 빅테크가 출시한 유명 AI 모델일수록 그런 사례가 늘어나고 있다.
기술매체 IT프로포탈은 이에 “본래의 오픈소스 정의를 기준으로 새삼 ‘오픈소스’임을 주장하는 모델들을 재평가해야 한다”고 지적하기도 했다. 지난 수 년 동안 오픈소스AI가 잇따라 개발되며 홍수를 이루고 있지만, “진정한 오픈소스 AI 플랫폼이 어떤 모습인지에 대해서는 여전히 물음표가 남아 있다”는 것이다.
실제로 메타는 벤치마크 점수를 자랑하는 개방형 모델인 라마(Llama)3를 출시했지만, 이 역시 진정한 오픈소스 요건에 맞지 않다는 평가다. 이는 최근 젬마(Gemma) 7B, 제미니 프로 1.5, 미스트랄 7B와 같은 유명 경쟁 AI모델을 염두에 두고 개발된 것이다. 그러나 라마2와 마찬가지로 라마3도 일반적인 오픈소스다운 요건을 충족하지 못한다는 얘기다.
메타 ‘라마’ 시리즈도 대표적인 ‘절반의 오픈소스’
오픈소스 대중화를 위한 영국의 비영리단체 오픈UK의 CEO인 아만다 브록은 “개방형 AI 개발은 긍정적이긴 하지만, 라마3와 같은 모델은 일정 수준의 상용화에 도달하면 여전히 사용자들이 메타의 협조를 얻어야 하는 부분이 많다”고 IT프로에 밝혔다. 그러면서 “일부만 공개되어 있기 때문에 진정한 오픈 소스는 아니다”고 지적했다.
가트너도 이와 비슷한 견해의 보고서를 낸 바 있다. 가트너는 역시 메타의 사례를 들며, “메타 역시 모델의 개방 범위를 두고, 일부 제약을 가하고 있다”고 주장하면서 “특히 핵심 경쟁업체가 실제로 이러한 모델을 사용하는 것을 원하지 않는 속성을 지니고 있다”고 평가했다. 그러면서 “메타는 데이터를 완전히 투명하게 개방하지 않고 있어 오픈 소스의 ‘핵심 정신’과 맞지 않으며, 진정한 오픈소스 모델에 대한 논란의 중심에 서 있다”고 지적했다.
데이터와 AI 전문업체인 데이터브릭스(Databricks)도 최근 ‘DBRX’라고 불리는 대규모 언어 모델을 개발, 공개했다. 그러나 전문가들은 이 모델 역시 오픈 소스 가치와 완전히 일치하지 않는다는게 대체적인 평가다. 이에 대해 가트너 역시 “‘DBRX’가 OSI(개방형 상호접속 시스템, Open Systems Interconnection)과는 별개의 ‘외부 사용 허용 정책’을 포함하고 있다.”고 전했다. 즉 OSI와는 다른, 사실상의 통제를 가하고 있다는 뜻이다.
가트너는 “그럼에도 불구하고, 이들은 그나마 바람직한 방향(완전한 오픈소스 풍토)으로 나아가는 단계임을 인정하지 않을 수 없다”면서 “‘라마’ 커뮤니티 역시 기대한 만큼 개방적이지는 않지만 오픈소스를 지향하는 시장 분위기를 주도하는 것임엔 틀림없다”고 나름의 의미를 평가했다.
전통적 ‘오픈소스’ 요건 미흡한 모델이 대부분
이처럼 AI모델들이 점점 전통적인 오픈소스의 조건을 갖추지 않고 있음에도 저마다 ‘개방형’임을 내세우고 있어, 앞으로 이들이 오픈소스라고 하기에 합당한 것인지를 세심히 따져봐야 한다는 목소리가 높다. 아예 많은 전문가들은 “앞으로 대부분의 오픈소스 모델이 사실상 부분 ‘개방형’ 모델로 간주하는게 정확할 것”이라고도 한다.
본래 전통적인 의미에서 오픈 소스는 소프트웨어의 전체 핵심 구성 요소 제품군을 무료로 사용할 수 있음을 의미한다. 잠재적인 사용자와 개발자가 모든 코드 라인에 액세스할 수 있으므로 진정한 오픈 소스에는 그 어떤 제한이 없어야 한다.
기술매체 테크리퍼블릭은 “본래 오픈소스란 윤리적이든 상업적인 측면이든간에 자유로운 흐름과 접근성을 보장하는 것”이라며 “그러나 AI로 인해 ‘물’이 다소 흐려지고 있다”고 했다. 이에 따르면 많은 오픈소스 AI앱들은 이런 기존의 조건에 적합하지 않은 경우가 많다.
'구성 요소별 개방 수준 차등화' 밝힐 필요있어
그래서 일부 전문가들은 아예 AI모델의 경우 그 구성 요소들을 개방 수준에 따라 다양한 분류하는 방안을 제시하기도 한다. 즉, 특정 요소들은 완전 오픈소스로 개방하고, 또 다른 요소들은 필요한 경우 별도의 라이선스를 요구하는 등 등급화된 접근 방식이 필요하다는 얘기다.
실제로 리눅스 재단은 최근 오픈소스 AI에 대한 접근 방식을 표준화하기 위한 오픈 플랫폼, 즉 ‘엔터프라이즈 AI’(OPEA)를 공개했다. AI모델의 구성요소별로 개방 정도를 차등화, 즉 등급화된 접근 방식을 부여한 것이다. 이런 OPEA 접근 방식을 적용하며, AI 애플리케이션에 대해 좀더 합리적이고 효과적으로 오픈소스 방식을 적용할 수 있다는 주장이다.
리눅스 재단에 의하면 예를 들어 생성 AI 구성 요소가 1~6이라고 한다면, “목록의 1, 3, 6부는 공개되어 있지만 2, 4, 5는 공개되어 있지 않습니다.”라고 일반에게 공지하는 방법도 있다. 즉, 1, 3, 6은 오픈소스, 나머지는 비공개 라이선스인 셈이다. “이를 바탕으로 AI 플랫폼을 카테고리에 배치하면 오픈소스의 맥락에서 사용자들이 좀더 정확하게 이해할 수 있다”는 설명이다.
