(2-①) 이종 AI반도체 ‘모니터링’ 기술…계층별 ‘급속 진화’

기존 하드웨어 도구, OS 프로파일링 도구 수준 뛰어넘어 “동적으로 자원 배분, 학습과 추론 병목, 비효율적 작동 해소” ‘AI 프레임워크’ 프로파일링, 컨테이너·가상화 계층 모니터링 클라우드 통합 지표 수집 등, “AI와 AI반도체 효용성 좌우”

2025-09-03     전윤미 기자
웨이퍼와 리소그래피 기술 관련 모습으로 본문과 직접 관련은 없음. (사진=EVG)

[애플경제 전윤미 기자] AI성능과 효율성을 극대화하기 위한 이종(異種) AI반도체의 효용 가치가 날로 주목받고 있다. 그러나 AI 성능 고도화를 위해 CPU, GPU, NPU, FPGA, ASIC 등의 자원을 조합한 이종 AI 반도체의 복잡성이 커지면서 그 효율성을 조율하기 위한 ‘자원 모니터링’ 기술도 날로 진화하고 있다.

자원 모니터링 기술은 이종 AI반도체의 효율성을 극대화함으로써 궁극적으론 AI와 AI반도체의 효용성을 좌우할 것으로 평가된다. 이종 자원으로 구성된 AI반도체는 성능과 효율성은 높아지지만, 구조가 복잡하다보니 학습과 추론 등에서 병목현상이나, 비효율적 작동을 유발할 수 있다. 이에 “정밀하고 효율적인 모니터링이 필수적”이란 설명이다.

모니터링 기술, 학습과 추론의 정반대 특성 감안

전문가나 연구자들마다 각기 방식은 다소 다를 수 있으나, 이종 AI반도체 자원에 대한 ‘모니터링’ 기술은 대체로 4~5가지 정도로 분류, 발전하고 있다. 한국전자통신연구원에 따르면 주로 ▲하드웨어가 제공하는 도구나 ▲운영체제 수준에서의 프로파일링 도구에 국한되어 있었다. 그러나 한층 첨단화된 기술이 발전하고 있다. 즉 ▲‘AI 프레임워크’ 수준에서의 프로파일링 기법을 비롯, ▲컨테이너와 가상화 계층에서의 모니터링 기술, ▲클라우드 전반의 통합 지표 수집 등이다. 또 “이종 자원의 복잡한 상호작용을 통합적으로 감시, 해석할 수 있는 프레임워크와 플랫폼 기술도 주목받고 있다”고 했다.

HBM 이미지. (출처=삼성전자)

이같은 모니터링 기술은 학습과 추론의 정반대 특성을 감안한 것이다. ‘학습’은 대량의 데이터셋을 기반으로 가중치를 갱신하는 연산을 반복한다. 이에 연산 집약도가 높고 메모리 사용량이 많다보니 GPU과 NPU를 장시간 점유할 수 밖에 없다. 그러나 ‘추론’은 빠르게 응답하면서 실시간으로 프로세스를 처리하는게 필요하다. 그러자면 여러 개의 요청을 한꺼번에 병렬처리할 수 있어야 한다.

즉, ‘학습’ 단계는 계산량과 메모리 사용량이 크기 때문에 장시간 (GPU, FPGA 등) 자원을 점유하며 병목을 유발할 가능성이 크다. 이에 대한 모니터링과 스케줄링이 필요할 수 밖에 없다. 반면에 ‘추론’은 빠른 응답성과 병렬성이 핵심이다. 경량화된 네트워크나 배치 처리를 통해 짧지만, 빈번한 자원 사용 패턴에 맞게 모니터링을 통해 효율적 자원 분배를 해야 하는 것이다.

이종 AI반도체 조감도. (출처=뉴스와이어)

‘계층’별 기술의 종류와 작동 원리

이런 모니터링은 하드웨어부터 클라우드까지 ‘계층’별로 발전해 왔다. 우선 ▲하드웨어 계층 수준에선 프로세서의 동작을 관찰할 수 있는 PMU(Performance Monitoring Unit)나, 전력 및 온도 센서, ‘cache miss counter’와 같은 칩 내장 장치를 통해 고정밀 데이터를 수집한다. 이를 통해 주로 온도, 전압, 클럭 주파수, 명령어 실행 카운트 등을 측정할 수 있다.

▲운영체제 수준에선 리눅스 ‘perf’, ‘top’, 컴퓨터 시스템 모니터링 도구인 ‘vmstat’, ‘eBPF’ 그리고 최근 리눅스에 포함된 DAMON(Data Access Monitor) 등과 같은 도구를 이용한다. 이를 통해 CPU 사용률, 메모리 페이지 폴트(fault), I/O wait 시간, 시스템 메모리 접근 빈도 등 시스템 전반의 자원 상태를 관찰할 수 있다.

▲AI 프레임워크의 경우 ‘미들웨어’ 수준에서 파이토치 프로파일러(PyTorch Profiler), 텐서플로우(TensorFlow Profiler), ‘ONNX Runtime tracing’ 등으로 모델 최적화에 활용한다. 이들은 딥러닝 연산의 단위별 실행 시간이나, GPU 메모리 점유율, 연산자별 성능 등을 추적하게 된다. 최근에는 AI 워크로드의 특성에 맞춘 연산 단계별 트레이싱이나, 메모리ㆍ전력 분석, 자동 병목 탐지 등의 기법이 더욱 중요해졌다는 평가다. 이를 통해 계층 간 데이터를 연계, 정밀한 분석이 필요하다는 얘기다.

인프라 서비스 기반의 ▲가상화 및 컨테이너 수준에서는 도커 스타츠(Docker stats), ‘cAdvisor’, 쿠버네티스 메트릭스 서버(Kubernetes metrics server) 등을 통해 컨테이너 단위의 자원 사용량이나 격리된 환경 내의 자원 충돌을 탐지할 수 있다.

또한 ▲클라우드 및 서비스 수준에선 AWS 클라우드워치, 애저 모니터, 구글 클라우드 오퍼레이션 슈트 등을 활용한다. 이들은 전체 시스템의 상태나, SLA 위반 여부, 로그 기반 이벤트 등을 추적하고, 자동화된 경고 시스템과 연동된다.

엔비디아 블랙웰 RTX5050 GPU. (출처=대원CTS)

‘계층 간 지표 연계와 통합 분석도 핵심’

이런 ‘계층’들은 독립적으로 동작하기도 하지만, 고도화된 모니터링 시스템에서는 계층 간 지표 연계와 통합 분석이 핵심이란 설명이다. 이에 대해 전자통신연구원은 “하드웨어 수준에서 감지된 발열 정보와 클라우드 수준의 워크로드 정보를 연계하면, 보다 정밀한 자원 재구성과 자동화 제어가 가능해진다.”고 했다.

이에 “AI 인프라의 안정적 운영을 위해서는 ‘계층’ 간 데이터를 통합하고 해석할 수 있는 ‘지능형 모니터링 프레임워크’가 개발될 필요가 있다”는 주문이다.

이처럼 자원 활용 패턴을 실시간으로 모니터링하지 않으면, 특정 자원에 부하가 집중되거나, 불필요한 대기 시간과 전력 소모가 누적되어 전체 시스템 효율이 크게 저하된다는 지적이다. 따라서 워크로드 특성을 이해하고 이에 따라 동적으로 자원을 배분하고 스케줄링하기 위해서는 정교한 모니터링 체계가 전제되어야 한다.

다만 “자원 모니터링은 단순한 상태 수집을 넘어, AI 인프라의 안정성과 효율을 높이는 지능형 운영의 핵심 기술인 만큼, 자가 최적화와 자가 회복을 지향하며 유연한 자율형 시스템으로 진화할 것”이란 기대도 있다.

<(2-②)에 계속>