92GB HBM3e 데이터 센터에 ‘GB200 GPU’ 활용

블랙웰 GPU  이미지. (사진=MS 애저)
블랙웰 GPU 이미지. (사진=MS 애저)

[애플경제 이윤순 기자] 마이크로소프트 ‘애저’가 클라우드 플랫폼 중에선 세계 최초로 엔비디아 첨단 AI칩 플랫폼인 블랙웰(Blackwell) ‘GB200’을 장착한 AI 서버를 실행한다는 소식이다. 마이크로소프트는 10일 “애저 클라우드 플랫폼이 엔비디아의 새로운 Blackwell GB200 AI 서버를 실행하는 세계 최초의 플랫폼이 되었다”고 밝혔다.

그러면서 MS는 이날 ‘애저’ AI 클라우드 컴퓨팅 플랫폼으로 새로 구축한 엔비디아의 Blackwell GB200 구동 서버를 선보였다. 이는 “고급 AI 모델을 확장하기 위한 GB200 구동 AI 서버를 갖춘 최초의 클라우드 시스템”이라는 설명이다.

MS 블로그에 의하면 ‘Infiniband’ 네트워킹과, 혁신적인 폐쇄 루프 액체 냉각을 활용, 세계 최첨단의 AI 모델에 전력을 공급하기 위해 모든 계층을 최적화하고 있다. MS ‘애저’는 가상 머신, AI 프로세스 등을 고객들에게 제공하면서, 애플리케이션을 관리한다. 이를 통해 사용자들은 하드웨어를 직접 소유하지 않고도 애플리케이션을 확장하거나, 업그레이드할 수 있다. 그래서 “‘애저’는 최신 엔비디아 블랙웰 B200 GPU를 사용, 사용자들에게 어떤 제품보다 뛰어난 성능을 제공하고, 사용자 편의를 극대화시킨다”는 설명이다.

B200 기반 AI 서버는 GB200 다이를 사용하고, 192GB의 HBM3e 메모리를 제공하는 플래그십 데이터 센터 B200 GPU를 활용한다. GB200 GPU는 딥 러닝, 대규모 AI 모델 학습, 대규모 데이터 세트 처리 등 최첨단의 고난도 워크로드에 최적화된 고성능 칩이다.

“여러 개의 B200 GPU 서버 랙‘으로 AI모델 고속 학습

GB200 GPU를 사용하면 ‘애저’에서 AI 모델을 더 빠르게 학습할 수 있다. 또한 다른 모든 클라우드 컴퓨팅 플랫폼 중에서 최고의 성능을 보장한다는게 MS측의 설명이다. 이를 위해 MS는 여러 개의 B200 GPU가 있는 서버 랙을 보유하고 있다. 이들 서버 내부에서 얼마나 많은 B200 GPU가 사용되고 있는지, 그리고 얼마나 많은 GPU를 배포했는지는 아직 알려지지 않았다.

GB200서버는 낮은 온도를 유지하기 위해 액체 냉각 솔루션으로 냉각된다. 아직 MS는 이를 통해 상업용 서버에 액체 냉각을 구현하는 방법을 알아보기 위한 초기 테스트를 실시하고 있는 셈이다. 다만 해당 서버는 엔비디아의 GB200 NVL72는 아닌 것으로 알려졌다. NVL72는 엔비디아가 Grace CPU 36개와, B200 GPU 72개의 성능을 활용하기 위해 개발한 것이다. 이는 최대 3240 TFLOPS의 ‘FP64’ 텐서 코어(Tensor Core) 성능을 낼 수 있는 강력한 플랫폼을 구축할 수 있다. 그런 엄청나게 강력한 성능때문에 곧 폭스콘(Foxconn)이 개발한 대만 최고 속도의 슈퍼컴퓨터에 사용될 것으로 전해지기도 했다.

한편 MS를 필두로 엔비디아 블랙웰 칩이 급속도로 확산될 조짐이다. 오픈AI도 최근 X를 통해 ‘DGX B200 시스템’을 선보인 사실을 공표하는 등 날로 많은 기업들이 엔비디아의 블랙웰 칩을 사용하기 위한 경쟁 대열에 합류하고 있는 추세다.

저작권자 © 애플경제 무단전재 및 재배포 금지