강화학습 넘어 ‘심층강화학습’(DRL)이 대세?

Q-네트워크 기반 ‘DQN’, DQN에 경사하강법 접목한 ‘DDPG’이 대표적 GAN학습 연상케하는 ‘A3C’, 근사치 최적화하는 ‘PPO’ 등도 다수 활용 강화학습과 달리 딥러닝·DNN·Q,러닝 접목 ‘고차원적 상태 및 환경 학습’ 가능

2025-03-19     전윤미 기자
'AI엑스포코리아 2024' 출품업체로서 본문 기사와는 직접 관련이 없음. (사진=애플경제)

[애플경제 전윤미 기자] 자원을 최적화하고, 가장 효율적으로 배분하기 위한 기법으로 기존 강화학습을 더욱 고도화한 심층강화학습(Deep Reinforcement Learning: DRL)이 날로 대중화되고 있다.

전통적인 강화학습 방법은 단순한 환경에서는 효과적이지만, 상태(state) 공간이 매우 크거나 고차원적인 복잡한 환경에서는 학습이 어렵다는 점이 한계로 지적되고 있다. 이에 딥러닝, DNN(심층신경망), Q러닝 등의 기법을 접목해 최적의 행동을 학습할 수 있도록 한 것이 심층강화학습(DRL)이다.

이는 고차원적인 상태-행동(action) 공간을 효과적으로 학습, 기존의 강화학습이 해결하기 어려운 문제들을 다룰 수 있도록 한다. 그 종류도 비교적 다양하다. 그 중에서도 대표적인 DRL 기법으로는 Q-네트워크 기반의 DQN(Deep Q-Network)를 비롯, DQN에 경사하강법(policy gradient method)을 접목한 DDPG(Deep Deterministic Policy Gradient)이 대표적이다.

또 GAN학습을 연상케하며 정책 평가와 정책 개선을 동시에 수행하는 A3C(Asynchronous Advantage ActorCritic), 근사치와 정책의 격차를 최소화하며 최적화하는 PPO(Proximal Policy Optimization) 등도 있다.

DQN의 세 가지 원리

구체적으로 보면 DQN(Deep Q-Network)은 쉽게 말해 강화학습에 인공신경망을 사용하려는 시도의 일환이다.

이 분야의 권위자인 렉스 프리드먼 MIT 연구원은 일찌감치 유튜브 등을 통해 가장 먼저 이를 소개한 바 있다. 그는 무엇보다 “(인공신경망을 활용할 경우) ‘경사하강법’(gradient method)에 의해 최적의 가중치들이 구해져야 하는데, 그게 쉽지 않았다”면서 “에 DQN은 ‘experience replay’와 ‘target network’이라는 방식으로 이 문제를 해결한 것”이라고 설명했다.

그에 따르면 DQN은 일단 Q-러닝(learning)에 기반을 두고 있다. 여기서 Q란, 현재 상태에서 취한 행동 보상에 대한 품질(quality)을 말한다. Q는 action(행동)과 state(상태)의 함수관계, 즉 테이블(table)로 표현된다. 학습과정에서 action과 state의 크기가 커질수록 table을 산출하고, 그에 기반한 학습이 더 복잡하고 난해해질 수 밖에 없다. 이른 문제를 해결하기 위해 아예Q-table에 인공신경망을 접목한 것이 DQN의 핵심 원리다.

이를 위해 DQN은 크게 세 가지 원리가 주축이 되고 있다. 우선은 신경망(Neural network)이다. 이는 Q-테이블을 ‘deep neural network’(DNN)으로 비선형의 근사, 즉 오류를 최소화한 최적의 학습을 도모하는 것이다.

다음으론 ‘Replay buffer’(리플레이 버퍼) 기술이다. 현재 상태(state), 선택된 action, 그리고 다음에 예상되는 state에 대한 정보들을 버퍼에 저장해놓는다. 그런 다음 일정 주기로 정해진 크기 만큼 버퍼에 저장된 데이터들을 샘플링한 후, 학습하게 한다. 이를 통해 무작위로 선택되는 샘플들의 상호작용을 이용, 학습하는 것이다.

또 다른 원리는 병렬식 학습 네트워크의 일환이라고 할 ‘타깃 네트워크(Target network)’를 설정하는 것이다. 애초 DQN은 Q-네트워크를 업데이트함으로써 최적의 결과를 얻고자 한다. 즉 주어진 상태(state)에서 최적의 행동(action)을 선택하는게 목적이다.

그러나 Q-네트워크를 학습시키면서 동시 목표로 하는 네트워크도 계속 함께 업데이트한다면, 학습이 원활하지 않게 된다. 이를 해소하기 위해 ‘타깃 네트워크(Target network)’라는 또 하나의 ‘Q-네트워크’를 정의해줌으로써 일종의 ‘병목’ 현상을 덜어주는 것이다. 다만 해당 ‘타깃 Q-네트워크’는 매번 학습할 때마다 업데이트해주는 것이 아니라, 기존 Q-네트워크보단 조금 더 긴 주기로 업데이트되도록 한다.

DQN과 정책경사법 접목한 ‘DDPG’

DDPG(Deep Deterministic Policy Gradient), 즉 결정론적 정책 경사법도 심층강화학습의 주요한 수단이다. 이는 DQN과 ‘policy gradient method’(정책 경사법)를 합친 개념이라고 할 수 있다. 다시 말해 DPG(Deep Deterministic Policy, 결정론적 정책)에 앞서 말한 DQN의 3가지 원리를 합친 개념이다. 다시 말해 DQ-learning(딥 Q-러닝)에 ‘continuous action space’(지속적 행동 공간)를 접목했다고 할 수 있다.

(사진=픽사베이)

정책 평가와 개선 동시에 하는 비동기 ‘A3C’

심층강화학습의 또 다른 기술로 A3C(Asynchronous Advantage ActorCritic)도 꼽힌다. ‘Advantage Actor-Critic’은 강화학습 알고리듬 중 하나로, 정책 평가와 정책 개선을 동시에 수행하는 방법이다. 이는 비동기 알고리듬으로 강화학습에서 정책(policy)을 학습하는 데 사용되며, 정책을 딥러닝 신경망으로 표현한다.

이를 개발한 구글 딥마인드는 “비동기, 즉 단일 에이전트와 단일 환경을 사용하는 Deep Q-Learning과 같은 기존 딥 강화 학습 알고리즘과는 다르다”면서 “각 에이전트가 고유한 네트워크 매개변수와 환경 사본을 갖는 여러 에이전트를 사용한다”고 밝혔다. 그런면서 “이이는 또 각각의 환경과 비동기적인 상호 작용을 통해 학습하는 원리”라고 설명했다.

이에 따르면 정책 경사 구현(policy gradient method)에 의해 학습 에이전트에게 보상이 되는 행동과, 불이익이 되는 행동을 알려준다. 또 이익의 값을 사용하면 에이전트는 보상이 기대치보다 얼마나 더 나은지도 알 수 있다. “이를 통해 에이전트는 환경에 대한 새로운 통찰력을 얻을 수 있고, 학습 프로세스가 더 좋아진다”는 설명이다.

다수의 output 생성, 상대적 고득점 선별, ‘PPO’

PPO(Proximal Policy Optimization)도 심층강화학습의 하나다. 이 역시 보상을 극대화할 수 있는 정책을 찾아나가는 알고리듬이다. 즉, ‘Group Relative Policy Optimization’ 기법을 기반으로 여러 개의 ‘output’을 생성한 후, 상대적으로 높은 점수를 내는 정책을 극대화 시켜주는 방식이다.

이들은 모두 각각의 특성과 장점을 바탕으로 다양한 응용 분야에서 활용되고 있다. 최근 정보통신기획평가원을 통해 무기체제의 최적화를 위해 연구한 결과를 공개한 김민국 육군 정보통신장교는 “특히 DRL은 비정형적이고 동적인 환경에서도 실시간으로 적응 가능하다는 특징을 가지며, 군사작전 환경과 같이 빠르게 변화하는 상황에서도 높은 성능을 기대할 수 있다”고 했다.

그 뿐 아니다. 이들 심층강화학습은 항공 교통 관리 측면, 즉 비행기 이착륙 슬롯을 최적화하거나, 스마트 물류를 위한 실시간 배송 경로를 최적화하는데도 매우 유용하다. 특히 클라우드 컴퓨팅 환경에서 작업 스케줄링이나 대기행렬 문제를 최적화할 수도 있다.