中 검색시장도 맹추격…알리 ‘제로서치’, 구글 리서치 추월?

알리바바, 제로서치 사용 140억 매개변수로 “구글 서치 능가” 주장 ‘지도학습 미세 조정’, 실시간 데이터 대신, LLM가 쿼리 기반 응답 생성 이해 쉬운 정보→복잡한 데이터 이동, 추론 강화, 데이터 신뢰도 식별 SerpAPI와 달리 인터넷 연결없이 검색 결과 시뮬레이션, ‘비용 88% 절감’

2025-05-12     이지향 기자
알리바바의 검색서비스인 '제로서치'가 일부 범주에서 구글서치를 능가한다는 평가도 있어 주목을 끈다. 사진은 알리바바 클라우드 센터. (출처=알리바바 클라우드)

[애플경제 이지향 기자] 검색시장의 절대강자는 두말할 필요도 없이 ‘구글 리서치’다. 그러나 이런 검색시장마저도 중국이 최근 추격에 박차를 가하고 있다. 최근엔 알리바바의 제로서치(ZeroSearch)가 AI 학습 비용을 엄청나게 절감하면서도, 구글 검색보다 싸고 효율적이란 평가가 나올 정도다.

최근 일부 전문가들에 의하면, 전자상거래 사이트 알리바바의 제로서치는 실제 검색 엔진 없이도 AI가 검색하도록 학습시켜, 일부 검색기능에선 구글을 능가한다는 얘기다.

그 중 B2B 테크 전문가인 아미누 압둘라이는 최근 일련의 평가보고서에서 “알리바바는 AI 시스템의 정보 검색 학습 방식을 혁신하고 비용을 크게 절감할 수 있는 획기적인 기술을 선보였다.”며 “새로운 도구인 ‘제로서치’는 LLM이 인터넷에 연결하지 않고도 검색 엔진 결과를 시뮬레이션할 수 있도록 한다”고 소개했다.

“주어진 검색어 스스로 추론, 응답 생성”

이같은 내용을 이위크, IT 비즈니스 에지, 테크리퍼블릭, 긱 페어 등에 공유한 그는 특히 “(제로서치는) 구글이나 빙에 의존하여 웹을 검색하는 대신, AI 모델이 검색 엔진을 시뮬레이션하도록 함으로써 실시간 검색을 생략하고 값비싼 API 비용을 크게(88%나) 절감한다”고 강조했다.

앞서 알리바바측도 무료 논문 사이트인 ‘arXiv’ 아카이브를 통해 “강화 학습(RL) 훈련은 빈번한 롤아웃(rollout)을 필요로 하며, 수십만 건의 검색 요청이 발생할 가능성이 있어 상당한 API 비용이 발생하고 확장성이 심각하게 제한된다.”며 저렴하되 효율적인 검색 기능의 비결을 공개했다.

이에 따르면 제로서치는 검색 엔진에서 실시간 데이터를 가져오지 않고, LLM이 쿼리를 기반으로 직접 유용한 문서와 노이즈가 있는 문서를 모두 생성하도록 훈련한다. 이는 “고품질이나 저품질의 응답을 모두 학습하는 지도 학습 미세 조정 프로세스에 의한 것”이다.

훈련 과정에선 이른바 ‘커리큘럼 롤아웃’ 전략이 사용된다. 즉, AI가 먼저 이해하기 쉬운 정보부터 받고, 시간이 지남에 따라 실제 인터넷 검색 조건을 모방해 차츰 복잡한 데이터에 노출되는 방식이다. “이를 통해 LLM이 대규모 사전 훈련 과정에서 광범위한 범주의 지식을 습득했으며, 주어진 검색어에 대해 (스스로) 관련 문서(응답)를 생성할 수 있게 되었다”는 것이다.

또한 이를 통해 “모델의 추론 능력이 강화되고, 마치 사람이 온라인에서 흔히 하는 것처럼 신뢰할 수 없는 데이터를 더 잘 파악할 수 있게 되었다”고 강조했다.

구글서치 사용자의 모습. (출처=테크레이다)

“구글 서치보다 엄청난 비용절감이 가장 큰 장점”

제로서치의 또 다른 장점은 엄청난 비용 절감이다. 알리바바의 분석에 따르면 약 64,000개의 구글 검색어로 SerpAPI(구글서치 API)를 학습하는 데 미화로 약 586.70달러가 소요되는 것으로 나타났다. 반면에 4개의 A100 GPU에서 실행되는 140억 개의 시뮬레이션 모델을 사용하는 제로서치의 비용은 미화 70.80달러에 불과, “88%나 비용이 절감되었다”는 설명이다.

알리바바는 또한 자체 테스트를 통해 “제로서치를 사용한 70억 개의 매개변수 검색 모델은 구글서치와 동일한 성능을 보였다”며 “그러나 제로서치를 사용한 140억 개의 매개변수 모델은 성능 면에서 구글 서치를 능가했다”고 주장했다.

해당 보고서는 “그 결과 제로서치는 API 비용을 전혀 들이지 않으면서도, 실제 구글 검색 엔진 기반 모델보다 우수한 성능을 보인다는 점을 확인시켰다”면서 “또한, 다양한 매개변수 크기의 기본 또는 명령어 튜닝 LLM 모두가 ‘일반화’ 기능이 뛰어나며, 다양한 강화 학습 알고리즘을 적용할 수 있었다”고 전했다.

특히 “명령어 튜닝 모델과 기본 모델을 포함한 다양한 크기와 유형의 AI모델에서 잘 작동했으며, PPO, GRPO, ‘Reinforce++’와 같은 여러 강화 학습 기법과도 호환된다”고 강조했다.

깃허브, 허깅페이스에 연구 툴 등 공개

제로서치는 또 더 큰 모델과 더 많은 GPU를 사용할수록 성능이 향상된다. 알리바바 클라우드의 인공지능(AI) 모델인 Qwen-2.5 및 LLaMA-3.2를 포함한 다양한 모델군에서 잘 작동한다. 알리바바는 이런 주장과 함께 연구과정의 코드, 데이터세트, 사전 학습된 모델을 깃허브나 허깅페이스에 공개했다.

알리바바의 이러한 주장은 AI 기업들이 더욱 스마트하고 자립적인 모델을 구축하기 위해 경쟁하는 와중에 나온 것이다. 오픈AI의 챗GPT와 구글의 제미니 등의 시스템은 여전히 ​​실시간 데이터나 검색 통합에 의존하고 있다. 그러나 “제로서치는 AI가 완전히 ‘자체 내에서 검색’함으로써 한층 저렴한 결과와, 더 높은 정확도를 제공할 수 있는 미래를 제시한다”는게 알리바바측의 설명이다.