오픈AI, 갑자기 ‘딥시크’ 저작권 침해 주장, “GPT ‘증류’ 결과” 주장
WSJ, 가디언 등 언론 통해 ‘딥시크’ 비판, 백악관도 거들고 나서
“그런 식이면, 오픈AI부터가 온갖 저작권 침해 결과물” 비판 일어
“그 보단 딥시크의 취약한 개인정보보호 기능이 문제” 지적도
[애플경제 전윤미 기자] 오픈AI가 중국 ‘딥시크’의 부상 속에서 자신들의 챗GPT를 그대로 ‘훔친 것’이라고 주장하고 있다. “지적 재산권을 도용했다”는 것이다. 중국이 대중제재에도 불구하고, 그런 획기적인 AI모델을 개발한 사실에 충격을 받은 실리콘밸리가 새로운 ‘반격 아닌 반격’을 가한다는 느낌을 주기도 한다.
이같은 오픈AI에 태도에 대해 현지 기술업계 내부에서도 시선이 곱지만은 않다. 저비용으로 어려운 여건에 뚫고 일궈낸 성과를 ‘폄하’하려는 의도가 아니냐는 해석이다. 그럼에도 오픈AI 등은 ‘언론플레이’까지 동원하며, ‘딥시크’와 중국의 해당 스타트업에 대한 공격을 개시하고 있다.
오픈AI, ‘딥시크’ 깎아내리기 본격 시동
그러나 일각에선 그 보단 ‘딥시크’가 채팅 로그와 기타 민감한 정보를 노출하는 등 개인정보보호 기능이 취약하다는 지적이 더 눈길을 끈다. 이는 무료 오픈소스로 보급되고 있는 딥시크의 취약점이기도 하다. 그럼에도 실리콘밸리 일부에선 ‘저작권 침해’나 자사의 AI모델 ‘증류’를 더 문제시하며 이를 견제하는 분위기다.
로이터통신, 엔가젯 등에 의하면 오픈AI는 “중국 스타트업들은 지속적으로 미국 AI 회사의 기술을 모방하려 한다”면서 “이에 따라 오픈AI와 파트너인 마이크로소프트는 모델을 ‘증류’한 것으로 의심되는 계정을 차단해 왔다”고 전하기도 했다.
월스트리트저널도 “이들 두 회사는 이러한 움직임의 배후에 있는 실체를 파악하려 하고 있으며, 화제의 신생 기업인 ‘딥시크’도 오픈AI가 조사하는 기업 중 하나”라고 거들었다.
여기서 ‘증류’는 보다 진보된 모델의 응답을 활용, 더 작고 효율적인 AI 모델을 강화하는 프로세스를 말한다. 더 큰 모델의 추론을 모방, 특정 상황에서 유사한 결과를 얻는 것이다. 이에 대해 오픈AI는 “업무용으로 사용자가 본사 플랫폼에서 모델을 추출하는 것은 허용하지만, 본사 서비스 약관에 따라 자사 시스템 출력을 위해 본사 모델을 재학습해서는 안 된다”고 밝혔다. 그러면서 오픈AI는 “딥시크는 가장 유능한 모델인 R1에서 ‘증류’를 통해 더 작은 모델을 학습한 결과”라고 밝혔다.
‘거위에게 좋은게, 거위에게는 안좋다고 우기는 꼴’ 비판도
오픈AI 측은 또 ‘더 가디언’지에 “중국 내 또는 중국에 기반을 둔 기업들은 선도적인 미국 AI 기업의 모델을 추출하려고 끊임없이 시도하고 있다”고 비판했다. 그래서 오픈AI가 정부와 협력, “미국 기술을 빼앗으려는 적과 경쟁자의 시도로부터 가장 유능한 모델을 최상으로 보호하는 것이 매우 중요하다”는 것이다.
이런 의혹에 대해 트럼프의 백악관도 나서고 있다. 딥시크가 오픈AI 솔루션을 출력에 인용한다는 비난이다. 트럼프 대통령의 AI 고문인 데이비드 섹스는 “딥시크가 오픈AI 모델에서 지식을 추출했다는 ‘상당한 증거’가 있다”고 주장하고 나선 것이다.
그러나 오픈AI와 백악관의 주장에 대한 비판도 만만찮다. 따지고 보면, 오픈AI는 수많은 작가, 코미디언, 뉴스 매체 등으로부터 저작권이 있는 작품을 동의 없이 사용, 모델을 학습시켰다는 여러 건의 소송에 휘말렸다. 오픈AI는 이에 “저작권이 있는 자료를 사용하지 않고는 오늘날의 선도적인 AI 모델을 학습하는 것은 불가능할 것”이라고 인정했다.
그런 오픈AI가 이번엔 딥시크의 성과에 대해 저작권 침해를 문제삼고 나온 곳이다. 이에 대해 엔가젯 등은 “오픈AI는 거위에게 좋은 것이, 정작 거위에게는 좋지 않다고 믿게 하는 듯하다”고 비꼬기도 했다.
정작 지적할 것은 딥시크의 ‘데이터 보안’
그런 가운데 미국의 연구 기업 ‘위즈 리서치’는 딥시크의 데이터베이스에서 채팅 로그와 기타 민감한 정보를 노출시킬 수 있었다고 밝혀 우려를 자아내고 있다. 일단 데이터베이스를 차단하긴 했지만, 정작 AI 모델의 더 큰 위험에 주목해야 한다는 지적이다. 해당 연구기관의 블로그에 따르면 딥시크의 데이터베이스는 데이터베이스 제어 및 권한 상승 공격에 대한 잠재적 경로를 열 수 있게 되어있다. 그래서 데이터베이스 내부에서 채팅 기록, 백엔드 데이터, 로그 스트림, API 비밀 및 운영 세부 정보를 읽을 수 있었다는 얘기다.
이들은 먼저 DeepSeek의 인터넷 연결 하위 도메인을 평가했고, 두 개의 열린 포트가 이상하다고 생각했다. 이 포트는 오픈소스 데이터베이스 관리 시스템인 클릭하우스에 호스팅된 딥시크의 데이터베이스로 연결된다. 이때 클릭하우스의 테이블을 탐색해서 채팅 기록, API 키, 운영 메타데이터 등을 알아낼 수 있었다는 지적이다.
전문가들은 이에 “특히 생성 AI와 같이 새롭고 테스트되지 않은 제품을 너무 빨리 도입하는 것은 위험하다”면서 “일단 해당 시스템의 버그와 결함을 찾을 시간이 필요하다”고 주문했다. 특히 기업들이 날로 많은 스타트업과 공급업체의 AI 도구와 서비스를 서둘러 도입하면서 이런 현상도 심해지고 있다. 그런 스타트업에 민감한 데이터를 맡기는 것은 위험하다는 지적이다.
