온디바이스AI 경쟁, ‘NPU’에서 결판난다

고속의 최적화된 AI연산기술, 온디바이스AI 경쟁 핵심요소 삼성, 애플, 구글, 퀄컴, 인텔, 미디어텍 등 경쟁 치열

2024-10-28     김예지 기자
 삼성의 엑시노스. (출처=삼성전자)

[애플경제 김예지 기자] 온디바이스 AI가 날로 확산되면서, 이를 위한 핵심기술인 NPU(Neural Processing Unit)가 새삼 주목을 끌고 있다.

온디바이스(On Device) AI는 스마트폰이나 PC 등 디바이스에 AI 기능을 탑재해 클라우드를 거치지 않고 기기 자체에서 학습과 추론을 실시간 처리하는 기술이다. 이를 통해 저지연, 향상된 보안, 유연성, 에너지 소모 절감 등 다양한 이점을 구현한다. 디바이스가 네트워크에 연결되어 있지 않을 때도 언제든지 AI 기능을 사용할 수 있다는 점에서 획기적이다.

빅테크들 ‘NPU’ 기술 경쟁에 사활

이를 위해선 인간의 두뇌를 모방한 AI 반도체이자 추론용 AI 반도체로 딥러닝에 적합한 연산을 가속해 주는 칩이 필수다. 즉 첨단 NPU를 통해 최적화된 AI 연산을 기할 수 있어야 한다. 특히 고속 연산을 위해 스마트폰·PC 등 소비재에 가속기를 장착해 AI 모델을 더욱 효율적으로 구동시킬 수 있도록 하는데, 이에 가장 적합한 반도체가 NPU라고 할 수 있다.

스마트폰 AP, PC용 칩에서 NPU 기능을 강화하면 연산 효율성을 극대화할 수 있다. 그 때문에 휴대하고 있는 디바이스에서 더욱 빠르게 AI 서비스를 이용할 수 있다. 이에 AI폰을 비롯한 온디바이스 AI를 주도하는 빅테크 등 주요 기업들은 또 다른 차원의 NPU 기술 경쟁을 벌이고 있다. 사실상 NPU는 온디바이스AI 경쟁을 좌우할 핵심요소로 부상하고 있다.

 애플의 M3.(사진=애플)

삼성, 애플, NPU로 AI폰 승부 가려

삼성전자는 ‘엑시노스 2400’을 개발, NPU 경쟁에 나서고 있다. AI 기능을 원활하게 구현할 수 있도록 다양하게 성능을 개선했다. 이는 기존 기술에 비해 NPU 성능은 14.7배, CPU 성능은 1.7배 향상된 스마트폰용 AI 칩이다. 특히 빛을 추적해 그래픽 품질을 높여주는 레이 트레이싱 기능, 그리고 최대 3억 2,000만 화소 영상과 이미지 처리 등의 기술을 확보하고 있다.

애플은 ‘M 시리즈’로 이에 맞서고 있다. 특히 M3, M3 Pro 및 M3 Max는 업계 최고 수준의 3나노 공정 기술로 제작된 최초 PC용 칩으로 평가된다. M4에 탑재한 뉴럴엔진은 코어 수를 M3와 같은 16코어로 유지했지만, 연산 성능은 최대 38 TOPS(초당 1조 번 연산). M3의 18 TOPS에 비해 2배 이상 성능을 과시한다.

구글은 ‘구글 텐서’로 NPU경쟁에 대처하고 있다. 그 중 구글 텐서 G3는 1세대인 구글 텐서, 2세대인 구글 텐서 G2를 잇는 3세대 맞춤형 실리콘칩으로 평가된다. 기존 모델과 비교할 때 성능은 물론 AI 처리 성능이 크게 개선되었다는 설명이다.

또한 픽셀9 시리즈는 텐서 G4 프로세서를 탑재, AI 성능에 최적화된 제품으로 알려졌다. 이는 전작에 비해 20%나 더 빠른 웹 브라우징을 보여주며, 17% 더 빠른 앱 실행능력, 그리고 우수한 전력 효율성을 내세욱 있다.

퀄컴, 인텔 등도 고성능 NPU 개발에 주력

퀄컴은 ‘스냅드래곤 8 엘리트’가 주무기다. 이는 새로운 오리온(Oryon) CPU 코어와, 향상된 아드레노(Adreno) GPU, 업그레이드된 헥사곤(Hexagon) NPU를 탑재하여 더욱 빠른 성능과 향상된 AI 기능을 제공한다. 특히 이 회사의 ‘헥사곤 NPU’는 자연어 처리, 이미지 인식, 음성인식 등 다양한 AI 작업을 수행할 수 있다. 온디바이스 AI 추론을 통해 개인정보 보호를 강화하고 지연시간을 감소시킬 수도 있다.

인텔은 ‘루나레이크’를 통해 나름의 경쟁에 나서고 있다. 이는 인텔이 설계한 코어 울트라 시리즈 2 모바일 프로세서다. CPU와 GPU, 그리고 메모리까지 모두 하나의 칩으로 설계한 SoC 구조가 특징이다. 특히 신경망 연산을 담당하는 전용 유닛인 NPU만으로 최대 1초당 48조 회의 AI 계산을 수행할 수 있다는 설명이다.

미디어텍의 ‘디멘시티 9300’도 눈길을 끈다. 이는 AI 가속기를 장착한 디멘시티 9300 칩이며, TSMC 4나노 공정으로 만들어진 고성능 AP를 장착하고 있다. 이전 제품에 비해 AI 성능이 2 배가량이고, 전력 소모량은 45% 줄어든 APU 790을 탑재했다는 설명이다. 이를 통해 ‘이미지 생성 인공지능 스테이블 디퓨전’을 사용하면 불과 1초 안에 이미지를 생성할 수 있다는게 회사측 소개다.