‘강화학습 AI프로세서’, 차세대 AI 경쟁의 '관건'
‘트레이드 오프’ 방식의 대량 연산, 초고속으로 가능케 국내선 ‘다중 정밀도’ 아키텍처로 FPGA 기반 강화학습 프레임워크 구축 구글 “수천 대 컴퓨터로 확장 시드RL 에이전트로 수 백만 프레임 계산”
[애플경제 전윤미 기자]강화학습(reinforcement learning)을 위한 AI 프로세서의 기술이 날로 중요시되고 있다. 관련 기술의 고도화를 둔 경쟁도 치열하다.
최근 초대형AI가 인기를 끌지만, 정작 AI개발 단계에서 데이터를 대량으로 확보하는 것은 결코 쉬운 일이 아니다. 그 때문에 보상과 벌점 등의 시행착오를 활용하는 강화학습의 중요성이 강조되지만, 정작 그 과정에서 수많은 연산을 해낼 수 있을 만큼 고도의 성능을 갖춘 전용 AI프로세서가 요구된다.
즉, 강화학습에 최적화된 전용 인공지능 프로세서, 그리고 이에 적합한 반도체 하드웨어 기술이 필요하다. 특히 생성형 AI가 향후 대세를 이룰 것으로 보이는 가운데, 이에 필적할 만한 강화학습과 AI 프로세서가 더욱 강조될 것으로 보인다.
장․단기 보상에 대한 기댓값 최대화 유도
본래 강화학습은 지도학습이나 비지도학습과도 다르다. 주어진 문제를 해결하는 과정에서, 시행착오를 통해 높은 보상을 얻는 답을 스스로 찾아내게 하는 방식이다. 서울대 AI연구원은 “단기 보상에 대한 활용(exploitation)과 장기 보상에 대한 탐색(exploration)의 trade-off를 조절하여, 최종적으로 보상에 대한 기댓값을 최대화하는 것이 강화 학습의 핵심 요소”라고 정의했다.
그래서 국내에선 최근 효율적인 강화학습 연산을 위한 데이터 처리를 위해 ‘다중 비트 정밀도’ 코어 아키텍처와 분산 메모리 아키텍처를 개발하고 있다. 다중 정밀도는 다양한 정밀도로 계산할 수 있는 프로세서를 사용하는 것이며, 사용하는 정밀도가 높을수록 더 많은 계산 리소스나, 데이터 전송 및 메모리 저장 공간이 필요하다. 그러나 모든 작업에 높은 정밀도가 필요한 것은 아니기 때문에, AI 연구 단계에선 서로 다른 수준의 정밀도를 혼합하고 일치시키는 경우가 많다.
강화학습용 고효율 저전력 ‘네트워크 온 칩’ 개발도
연세대 김시호 교수는 최근 정보통신기획평가원을 통해 공표한 연구보고서에서 이같이 개발한 ‘다중 비트 정밀도’ 코어 아키텍처와 분산 메모리 아키텍처에, 비메모리 반도체인 FPGA를 기반으로 한 강화학습 하드웨어 프레임워크를 구축했다. 이를 통해 결국 “하드웨어의 연산 속도나, 에너지 효율, 전력 소모를 최적화된 프로세서 아키텍처를 개발했다”면서 “이를 다시 하드웨어 IP로 개발하고 반도체 칩으로 제작하여 효율적인 강화학습 애플리케이션으로 구동할 수 있다”고 소개했다.
김 교수에 의하면 이는 강화학습 모델의 특성에 최적화된 연산이나, 메모리 관리를 지원하는 저전력 프로세서의 일종이다. 이는 또 “단일모드로 압축됨으로써 강화학습 모델 특성에 최적화된 고효율, 저전력의 코어 아키텍처를 활용한 ‘네트워크 온 칩’ 구조”라고 설명했다.
그 결과 “다양한 종류의 심층 강화 신경망 가속을 지원하는 가변구조의 아키텍처를 통해 다중 심층강화 신경망을 가속할 수 있는 동적 워크로드를 할당하고, 가변적이고 최적화된 비트 정밀도를 지원한다”는 것이다.
KAIST 유회준 교수 연구그룹도 이 분야에서 뛰어난 연구성과를 보이고 있다. 앞서 김 교수가 보고서에서 인용한 바에 따르면, 유 교수 그룹은 강화학습 연산 최적화를 위한 인공지능 가속기인 DNPU와 UNPU를 이미 개발한 바 있다. 이는 “각각 양자화 테이블 기반의 행렬 연산과 비트 시리얼(Bit-Serial)한 고정 소수점 방식의 연산을 지원함으로써 한층 우수한 처리속도를 보여준다”는 얘기다.
비트 시리얼은 일종의 비트 직렬 방식의 정보 전송방식으로서, 일련의 비트들을 하나의 통신 선로를 사용하여 한 순간에 하나의 비트씩 전송하는 것이다. 그 만큼 연산 처리 속도를 높여줄 수가 있다.
국내에선 또 엣지 디바이스에서의 딥러닝 가속 프로세서를 개발하는 등 컴퓨터 비전 딥러닝 알고리즘을 구현하기 위한 고성능 지능형 반도체가 개발된 바 있다.
또한 앞서 김시호 교수 연구그룹은 기존 연산 처리 과정이 주로 곱을 누적하는 연산이 차지한다는 점에 착안, 연산과정을 개선하기 위해 학습과 추론에 최적화된 가속 목적의 가속 아키텍처를 개발, 이를 하드웨어로 구현했다. 이는 “국내에서 임의의 인공지능을 가속하는 것을 목표로 설계하여 모델링하고, 연구를 진행하는 중”이라며 “즉, 곱을 누적하는 연산에서 곱 연산을 이항연산과 ‘합 연산’의 조합으로 재구성하는 방식”이라고 소개했다.
해외서도 학습-추론 가속용 시스템 아키텍처 중점 개발
해외에서도 이와 관련된 기술 발전이 빠르게 진행되는 등 날로 경쟁이 치열해지고 있다. 주로 강화학습 과정의 학습-추론 가속을 위한 시스템 아키텍처를 개발하는데 중점을 두고 있다. 또 “기존 서버에서 학습-추론을 가속하기 위한 시스템 아키텍처를 뛰어넘어, 최근엔 모바일이나 엣지에서의 추론 가속기가 등장하면서 모바일에서의 연구도 활발해지고 있다”는 김 교수의 설명이다.
특히 미국 구글 리서치는 초당 수천 대의 컴퓨터로 확장할 수 있는 시드(Seed) RL 에이전트를 개발, 초당 수백만 프레임으로 훈련함으로써 계산 효율성을 크게 향상시켰다. 이는 ‘모델 추론’을 중앙 집중화하고, 빠른 통신 계층을 도입하여 GPU나 TPU를 활용하는 새로운 아키텍처 개념이다.
구글은 이를 ‘구글 리서치 풋볼’이나, ‘아케이드 학습 환경’, ‘딥마인드 랩’ 등 널리 알려진 벤치마크에서 ‘SEED RL’의 성능을 시연하기도 했다. 또한 최근에는 이보다 더 큰 모델을 사용하면서 데이터 효율성을 높이고 있다.
구글은 이를 통해 몇 가지 기존의 문제점을 해결한 것으로 전해졌다. 우선 △ 인퍼런스에 CPU를 사용함으로서 멀티 액터 RL 환경에서 GPU 사용 병렬화가 곤란했던 문제를 해소했다. 또한 △학습과 추론 스텝으로 동작 모드가 변하면서 발생하는 컴퓨팅 리소스 사용상의 비효율성이나, △다수의 액터와 하나의 러너 간에 다량의 데이터를 주고받는 구조적 문제로 인하 데이터 이동상의 ‘밴드위드’ 현상 등을 해결할 수 있게 되었다.
앞서 김 교수는 “해외에선 자원이 많이 필요한 서버향 가속 하드웨어 외에도 모바일 기기에서 실시간 의사결정과 학습을 진행할 수 있는 강화학습 프로세서 개발 연구도 활발히 이루어지고 있다”면서 “이에 강화학습 알고리즘과, 이를 효율적으로 가속할 수 있는 프로세서에 관한 연구를 통해 세계 최고 수준의 강화학습 연구 그룹과 경쟁하며 차세대 첨단 기술을 이끌어갈 수 있는 토대를 마련해야 할 것”이라고 강조했다.