하위 ‘전문가 모델’ 혼합 방식, 개별 쿼리에 맞춤형 하위 모델 선별, 대응
게이트 네트워크가 ‘전문가’ 선정, ‘효율적, 고밀도 모델과 같은 정확도’
‘해시 기반 토큰 분배’로 ‘전문가’별 정밀한 작업 할당, MoE 모델 확장도
전문가 모델마다 고루 워크로드 분산 설계 도구, “‘딥시크’로 더욱 주목”

MoE 모델 이미지. (출처=아이스톡)
MoE 모델 이미지. (출처=아이스톡)

[애플경제 전윤미 기자] ‘딥시크’ 충격으로 인해 새삼 MoE(Mixture of Experts, (하위) 전문가 모델 혼합 방식) 기법이 주목받고 있다. LLM은 보통 사용자들의 모든 개별적 쿼리(질문)를 모델 전체를 사용해 응답하거나 처리한다. 그러나 MoE는 매개변수 내에서 가장 관련성이 높은 ‘전문가’에 비유할 만한 특정 하위 모델만 골라서, 특정 쿼리에 응답하거나 대처하도록 한다.

다시 말해 개별 질문 하나하나에 굳이 모델 전체를 동원할게 아니라, 질문 종류에 따라 이에 맞는 하위의 각기 전문화되고 분화된 하위 모델(experts)을 선발, 대응한다고 할 수 있다.

이는 그래서 AI 효율성을 향상시키고, 모델을 확장하며 비용을 크게 절감시킬 수 있다. AI는 끊임없이 발전하고 있으며, 연구자와 기업들은 효율성과 정확성을 개선하기 위한 새로운 기술을 모색하고 있다. 전문가 혼합(MoE) 모델은 그 대표적인 방식 중 하나다.

전문가 혼합 모델은 문제마다 각기 다른 여러 측면에 대해 각기 맞춤형으로 학습된 여러 개의 특수 하위 모델로 구성된다. 모든 입력(쿼리)에 대해 ‘게이트 네트워크’가 문제에 가장 적합한 ‘전문가’ 모델을 선별한다. ‘게이트 네트워크’는 일종의 게이트 키핑 내지 데스킹 역할을 하는 셈이다.

장차 AI생태계의 강자로 자리매김

IT벤더인 SS&C Blue Prism 사는 ‘테크리퍼블릭’을 통해 “MoE 모델은 대체로 더 효율적이며 정확도 면에서 고밀도 모델에 근접하기 때문에 AI 생태계의 강자로 자리매김하고 있다”면서 “특정 쿼리에 사용할 필요가 없는 모델 부분을 분리하고, 모든 매개변수를 메모리에 저장해 두면서도 컴퓨팅 비용을 크게 절감할 수 있다는 것이 가장 큰 장점”이라고 밝혔다.

MoE의 이같은 선택적 활성화 프로세스는 여러 가지 이점을 선사한다. 우선 ‘전문가’ 하위 모델이 전문성을 발휘, 복잡한 쿼리를 한층 정확하게 처리한다. 또 개별 쿼리에 대해 전체 매개변수를 사용할 필요없이 일부만 사용되므로 처리 속도가 한층 빠르다. 당연히 그로 인해 불필요한 계산을 줄이고, 추론 비용을 절감함으로써 기존 모델에 비해 가성비가 매우 양호하다.

“그러나 MoE 모델을 배포하는 것이 항상 간단한 것만은 아니다”라는 지적도 있다. 즉 ‘운영 비용’(OpEx)은 절감할 수 있지만 모델의 복잡성에 대처할 인프라로 인해 ‘자본 지출’(CapEx)이 높아질 수 있다는 얘기다.

전문가 모델 효율적 선택하는 ‘라우팅’이 관건

MoE 모델의 중요한 난제 중 하나는 과연 ‘게이팅 네트워크’가 최적의 하위 ‘전문가’ 모델을 어떻게 효율적으로 선택하도록 하는 것이냐다. 이른바 ‘라우팅 메커니즘’이다. 이는 적합한 전문가 모델 선별과 적용, 확장성을 결정하는 데 매우 중요한 조건이다.

이 경우 “MoE 아키텍처 내의 라우팅 메커니즘은 데이터 네트워크의 진화와 하다”고 비유하는 전문가들이 많다. 애초 데이터 네트워크는 주로 총체적인 하나의 네트워크의 디바이스마다 데이터를 전송함으로써 막대한 대역폭을 소모하곤 했다. 그러나 MoE 라우팅은 컴퓨팅 계층 전반의 워크로드를 분산함으로써 한층 발전된 기법으로 나아가고 있다.

MoE 라우팅는 날로 ‘해시 기반 토큰 분배’ 기술이 발전하면서 ‘전문가’ 모델마다 더욱 정밀하게 작업을 할당한다. 또한 최대 수조 개의 매개변수에 이르기까지 MoE 모델을 효율적으로 확장할 수도 있다. ‘딥 스피드’, 즉 여러 전문가에게 워크로드를 효율적으로 분산하도록 설계된 도구이기도 하다.

이처럼 고성능이다보니, 라우팅 메커니즘은 나름의 복잡성을 피할 수 없다. 기술매체 ‘더 인포메이션’은 “MoE 모델을 대규모로 배포하다보면 복잡해지면서 운영이 힘들 수도 있지만, 강력한 데이터 관리 전략을 통해 이런 문제를 최소화할 수 있다”며 몇 가지 방법론을 소개했다.

우선은 적절한 청킹(Chunking, 선별)과 임베딩 전략을 활용하고, 신뢰할 수 있는 올바른 데이터를 벡터 데이터베이스에 통합하는 것이다. 이를 통해 운영을 복잡하게 하는 성능 또는 컴퓨팅의 오버헤드를 조정할 수 있다.

또한 적절한 프로세스 오케스트레이션을 구사하는 방법이다. 이를 통해 (특정 쿼리에 대해) 적절한 하위 프로세스가 적절한 전문가 (모델) 네트워크를 선별, 효율적으로 애플리케이션을 활용할 수 있게 한다.

MoE 모델 기법이 적옹된 중국의 '딥시크' 모델 이미지. (출처=아이스톡)
MoE 모델 기법이 적옹된 중국의 '딥시크' 모델 이미지. (출처=아이스톡)

MoE 모델의 학습과 배포 과정의 문제점도

MoE 모델은 그러나 학습이나 배포 과정에서 애로가 있을 수 있다. 대표적인 문제가 ‘전문가 붕괴’(하위 전문가 모델 붕괴)다. 즉, 일부 전문가 모델이 작업 부하를 독점하는 반면, 다른 전문가 모델은 하는 일이 없게 된다. 즉, 활용도가 낮은 상태로 방치되는 것이다. 이는 매우 비효율적이며, 전반적인 성능 저하로 이어질 수 있다.

이에 전문가들은 “‘동적 게이팅 메커니즘’과 ‘무손실 밸런싱 기법’”을 그 대책으로 제시한다. 대표적으로 강화 학습을 통해 즉각적인 미세 조정을 가능하게 하는 것이다. 즉 “전문가 모델에 대한 게이팅에 약간의 노이즈를 추가하면 ‘전문가 붕괴’도 줄어든다”는 얘기다. 이는 미세 조정을 전문가 모델이 아닌 게이팅 메커니즘에 적용할 수 있다는 점에서 “밀집 모델 학습과 다르다.”는 것이다.

또한 MoE 모델을 학습하려면 부하를 신중하게 분산할 필요가 있다. 만약 특정 전문가 모델이 과도하게 사용되면 병목 현상이 발생, 시스템 속도가 떨어질 수 있다. 이를 해결하기 위해 많은 연구원들은 작업 부하를 전문가 모델마다 균등하게 분산하는 ‘토큰 셔플링’을 적용한다. 또 전문가 모델을 필요에 따라 실시간 동적으로 활성화 또는 비활성화하는 ‘강화 학습 기반 라우팅’과 같은 방법도 적용한다.

연구원들은 또한 양자화 기법, 즉 MoE가 사용하는 매개변수인 모델 ‘가중치’에 低정밀도의 데이터 유형을 사용, 메모리나 컴퓨팅 수요를 줄이는 방안을 모색하고 있다.

그렇다면 MoE는 앞으로 지배적인 AI 패러다임이 될 수 있을까. 또한 이는 기존의 고밀도 모델을 결합한 하이브리드 모델로 선호될 수 있을까? 이에 관한 전문가들 간의 논쟁도 활발하다.

그 중 일부는 “하이브리드 접근 방식이 될 가능성이 높다”고 본다. 즉 MoE 아키텍처 특유이 효율성과 확장성 덕분에 대규모 AI 생태계의 핵심적 역할을 하면서도, 동시에 하이브리드 접근 방식을 가미해 더 실용적 대안도 될 수 있다.“는 것이다.

특히 MoE는 다양한 작업별로 AI 모델을 미세하게 구분, 적용하는 추세를 견인할 것이란 전망도 있다. 다시 말해 이는 기본적으로 다수의 소규모 시스템을 활용하는 방법이다. 특히 LLM이 특정 목적을 위한 ‘특정화’를 추구하는 경향에 맞춰 MoE는 훨씬 적은 예산이나 에너지로 특정한 용도에서 좋은 결과를 얻을 수 있다.

“지배적 AI패러다임 이끄는 하이브리드 모델로 발전”

다만 이에 대한 접근성은 여전히 ​문제가 되고 있다. 소기업들은 높은 인프라 비용으로 인해 MoE 도입이 쉽지 않다. 그렇다보니 오픈소스 MoE 모델이 널리 선호되고 있다. 이는 소기업들에게 적합한 대안일 수도 있다.

또한 분산 컴퓨팅 네트워크는 MoE의 중앙 집중식 AI 인프라 의존도를 크게 덜어준다. 그 덕분에 “MoE는 차세대 AI 아키텍처의 핵심 요소로서 확장 가능하고 비용 효율적인 인공지능 방식이 될 것”이라는 기대다.

앞으로도 MoE 모델은 게이팅 메커니즘의 개선, 라우팅 효율성 향상, 하드웨어 가속 등 지속적인 혁신을 거듭할 것으로 예상된다. 또한 동적 부하 분산과 적응형 전문가 모델 활성화등 정교한 기술을 통해 비용 절감과 효율성을 기할 것으로 전망된다. 특히 “양자화나 모델 증류 기술이 발전함에 따라 소규모 기업도 MoE를 더 쉽게 활용함으로써 굳이 대규모 컴퓨팅 리소스를 확충할 필요가 없을 것”이란 예상이다.

다만 장·단점도 있다. 게이팅이나, 전문가 모델 전문성의 적절한 분배, 그리고 적절한 혼합을 기하다보면, 복잡성이 커지고, 자칫 정확도 역시 줄어들 것이란 우려도 있다.

그럼에도 불구하고 MoE는 장점이 더 많다. 우선 전체 모델 매개변수의 일부만 사용함으로써 효율성을 기할 수 있다. 또 ‘고밀도 변압기 기반 모델’을 결합한 하이브리드 아키텍처를 통해 비용과, 성능, 정확도에 걸쳐 최적의 균형을 기할 수 있다.

앞서 SS&C Blue Prism 사는 특히 “‘오픈소스 프레임워크’ 또한 누구나 손쉽게 MoE를 도입할 수 있게 하고, 영세한 기업도 적은 비용으로 사용할 수 있을 것”이라며 “또한 하드웨어 인프라와, AI 교육 방법론, 분산 컴퓨팅의 발전으로 인해 MoE는 미래 AI 시스템의 핵심으로 자리매김할 것”으로 전망했다.

저작권자 © 애플경제 무단전재 및 재배포 금지