‘CPU·GPU·NPU 간 고속 연결’ 기술, ‘AI 반도체’ 한계 극복
서로 다른 기종 간 메모리 공유, 기존 PIM, HBM 뛰어넘는 성능
삼성전자․SK하이닉스 기술 주도, 엔비디아 ‘풀 스택 솔루션’에도 변화

삼성전자의 CXL 검증 장치. (출처=삼성전자)
삼성전자의 CXL 검증 장치. (출처=삼성전자)

[애플경제 전윤미 기자] 날로 많은 용량과 속도를 요구함에 따라 AI반도체도 갈수록 한계에 처한 상황이다. 이에 최근엔 최첨단 고대역폭 메모리 ‘HBM’시리즈를 뛰어넘는 성능의 ‘CXL’이 차세대 메모리의 대안으로 부상하고 있다. 이는 기존 AI반도체의 메모리 용량 한계와 서버의 유연성을 확장하기 위한 인터페이스로 곧 ‘HBM’을 대체할 것으로 예상된다.

이미 삼성전자는 2024년 하반기부터 ‘CXL 2.0’ D램을 양산한다는 계획이다. SK하이닉스 역시 하반기부터 자체 개발한 CXL 2.0 메모리 솔루션을 상용화하기로 했다. 또 반도체 스타트업들도 나름대로 독창적인 CXL 개발 경쟁을 벌이고 있어, 본격적인 ‘CXL’ 시대의 개막을 예고하고 있다.

다수 인터페이스 통합, 장치 간 직접 통신, 메모리 공유

다시 말해 기존의 메모리 AI 프로세서 기능을 탑재한 PIM, HBM 등에 이어 이제 CXL 기반 D램 모듈이 차세대 메모리 솔루션으로 주목받고 있다. HBM은 GPU가 많은 데이터를 단시간에 처리할 수 있도록 D램을 고층 빌딩처럼 수직으로 쌓아 올리는 기술이다. 이에 비해 CXL은 CPU·GPU·NPU 간 연결을 고속으로 시도하는 기술이다. HBM보다 더욱 우수한 확장성을 제공한다.

HBM이 대용량 데이터 처리를 위해 메모리를 쌓아 올려 대역폭·속도를 향상한 고밀도 메모리라면, CXL은 고성능 연산이 필요한 애플리케이션에서 프로세서·메모리·가속기·스토리지 등 제품을 효율적으로 연결한 기술이다. 또 전자는 대역폭·속도가 뛰어나며, 대규모 그래픽 렌더링 작업과 머신러닝 알고리즘 학습에 적합하다면, 후자는 서로 다른 기종 간 메모리를 공유할 수 있어 효과적으로 자원을 활용할 수 있다는게 장점이다.

기존에는 CPU를 중심으로 메모리와 저장 장치 등 각 장치에 별도 인터페이스가 존재한다. 각 장치 간에 통신을 할 때는 다수의 인터페이스를 통과하는 과정에서 지연 문제가 발생했다. 더욱이 AI, 머신러닝 등 데이터 처리량이 폭발적으로 증가하면서 더욱 문제가 많았다.

또한, CPU 1개당 사용할 수 있는 D램 모듈이 제한되어 있다보니, 데이터 처리량을 늘리기 위해서는 CPU를 늘려야 한다. 그러나 CXL을 활용하면 이들 인터페이스를 하나로 통합해 장치 간 직접 통신을 가능하게 하고 메모리 공유가 가능하다.

서버 1대당 메모리 용량 8~10배 늘려

정보통신기획평가원은 “CXL 시스템으로 구축한 서버는 1대당 메모리 용량을 8~10배가량 늘릴 수 있다”면서 “덕분에 서버 1대가 처리해야 할 데이터가 급증하는 AI 시대에 방대한 양의 정보를 처리해야 하는 데이터 서버의 병목현상을 해결할 수 있다”고 높이 평가했다.

그러면서 “앞으로는 엔비디아의 AI 반도체 풀 스택 솔루션에서 메모리 한계를 극복하기 위해, 필요했던 NV 스위치나 NV 링크가 필요 없어질 것으로 예상된다”고 했다.

NV링크는 강력한 소프트웨어 프로토콜에 의해 형성된 GPU와 CPU를 위한 고속연결이다. 컴퓨터 보드에 있는 여러 쌍의 전선을 이용해 공유 메모리 풀에서 초고속 데이터 전송을 가능하게 하는 기술이다.

그러나 앞으로 엔비디아 GPU의 구동을 지원하는 HBM보다는, 단일 장치에 여러 모델(sLLM)을 담는 것이 중요해지며 이에 따라 용량을 증가시킬 수 있는 CXL 중요성이 더욱 커진다. 즉, 조금씩 데이터를 필요한 만큼 퍼서 쓰는 식으로 공유할 수 있는 것이다.

이 분야에서 삼성과 SK하이닉스, 그리고 반도체 스타트업 등 국내 기업들이 기술을 주도하다시피하고 있다.

삼성전자는 2024년 하반기부터 ‘CXL 2.0’ D램을 양산하며, 특히 CXL을 적용한 로드맵인 D램 CMM-D를 추진키로 했다. “CMM-D는 업계 최초로 CXL 2.0을 지원하는 제품”이라며 “CXL 2.0을 지원하는 인텔 서버용 CPU 제온6(코드명 시에라포레스트)의 출하 시기에 맞춰 출시할 예정”이라고 밝혔다.

삼성전자, CXL 적용 로드맵 ‘D램 CMM-D’ 추진

현재 CXL 1.1은 하나의 노드(네트워크에 연결하는 호스트 기기) 안에서만 확장하는 것이다. 그러나 2.0부터는 다수의 프로세서와 연결할 수 있는 ‘메모리 풀링(Pooling)’ 기능을 지닌다. 메모리 풀링은 기존 프로세서와 메모리가 따로 연결돼야 했던 메모리를 하나의 풀(Pool)로 묶는 것이다. 그래서 호스트가 풀에서 메모리를 필요한 만큼 나누어 사용하는 기술이다.

메모리 풀링 기능을 통해 CXL 메모리의 전 용량을 유휴 영역 없이 사용할 수 있어 데이터 전송 병목현상을 줄일 수 있다. 효율적인 메모리 사용으로 서버 운영비를 절감할 수 있어 총소유 비용(TCO) 절감이 가능하다는 설명이다. 또한, CXL 2.0 D램은 1y D램(10나노급 2세대)을 기반으로 256GB의 고용량을 구현했다.

이는 “데이터센터 저장용량을 늘리기 위해 별도의 서버를 증설하는 대신, 기존의 서버에서 솔리드 스테이트 드라이브(SSD)를 꽂던 자리를 그대로 CMM-D로 대체하면 편리하게 용량을 확장할 수 있다”는 삼성전자의 설명이다.

삼성전자의 CXL 솔루션. (출처=삼성전자)
삼성전자의 CXL 솔루션. (출처=삼성전자)

SK, CXL 기반 96GB, 128GB D램 연내 상용화

SK하이닉스도 질세라 지난 ‘CXL DEVCON 2024’에서 다양한 CXL 제품을 공개하며, CXL을 기반으로 한 96GB, 128GB 용량의 D램을 연내 상용화할 계획임을 밝혔다.

특히 이 회사는 ‘CXL DEVCON 2024’에서 △CMM(CXL Memory Module)-DDR5, △나이아가라(Niagara) 2.0을 공개했다.

이는 (CMM-DDR5) DDR5 D램만 장착한 기존 시스템보다 대역폭은 최대 50% 향상하고 용량은 최대 100% 확장이 가능한 점이 특징이다. 특히 “CMM-DDR5를 지원하는 소프트웨어인 HMSDK는 CMM-DDR5와 일반 D램 모듈이 함께 장착된 시스템에서 데이터를 사용 빈도에 따라 적합한 메모리 장치로 재배치해 시스템의 성능을 획기적으로 개선한 것”이라고 자세히 소개했다.

나이아가라 2.0은 여러 개의 CXL 메모리를 묶은 CXL 풀드 메모리(Pooled Memory) 솔루션이다. 여러 호스트(CPU·GPU 등)가 최적의 상태로 용량을 나눠 쓰도록 해 유휴 메모리가 없게 하고 전력 소모를 최소화한 것이다. “이전 세대인 나이아가라 1.0이 시스템끼리 서로 용량만 공유하도록 지원했다면, 나이아가라 2.0은 데이터까지 공유하게 함으로써 중복된 데이터 처리 등을 줄여 전체 시스템 성능을 더 향상시킨 것”이란 설명이다.

SK하이닉스는 또 “DDR5 기반 96GB·128GB CXL 2.0 메모리 솔루션 제품의 고객 인증을 마무리했으며 올해 안으로 상용화할 방침”이라고 밝혔다.

파두, 리벨리온, 파네시아, 소니드 등 국내 스타트업들도 개발 가세

한편, 파두, 리벨리온, 파네시아, 소니드 등 국내 스타트업들도 CPU와 가속기, D램, 저장 장치 등을 더욱 효율적으로 활용하기 위해 CXL 연구·개발에 적극 나서고 있다.

파두는 2023년 10월 미국 자회사 이음(EEUM)을 인수한 바 있다. AI가 금융, 통신, 교육 등 분야별로 특화되는 시기를 겨냥한 AI 데이터센터용 CXL 스위치를 개발하고 있다.

리벨리온은 향후 출시할 고성능 NPU(신경망처리장치) 칩에 차세대 데이터센터 솔루션인 CXL을 적용할 계획이다.

파네시아는 자체적으로 확보한 설계 자산(IP)을 기반으로 최신 표준인 CXL 3.1을 지원하는 스위치 칩을 개발하고 있다.

소니드는 서울대학교와 스타랩스와 협력, AI 반도체의 메모리 용량 한계를 극복한 ‘CXL-GPU’ 기술 개발에 착수했다.

그런 가운데 시장조사기관 욜 그룹(Yole Group)에 따르면 글로벌 CXL 반도체 시장은 2022년 170만 달러(약 24억 원) 수준에서 2028년 150억 달러(20조 원)까지 무려 8천배 가량 늘어날 것으로 전망했다.

저작권자 © 애플경제 무단전재 및 재배포 금지