최근 수정 시각 : 2023-01-08 13:07:38
Deep Deterministic Policy Gradient (심층 결정론적 정책 경사법)
강화학습의 한 방법으로써 2016년에 구글 딥마인드 연구진 TP. Lillicrap등에 의해 제안되었다.
본 기법은 기존 2014년, D. Silver(2014)에 의해 제안된 Deterministic Policy Gradient (DPG)와 V. Mnih(2015)가 제안한 DQN 연구에서 아이디어를 얻었다. 알고리즘의 기반은 off-policy, continuous actor-critic이라는 DPG알고리즘에 기반을 두고 있으나, 좀 더 복잡성 높은 학습을 수행하기 위하여 딥러닝을 함께 사용하려 시도했다. 그러기 위해 딥러닝이 갖는 발산성문제를 해결하기 위해 DQN에서 제안한 soft update 및 batch learning을 도입하였다. 그 결과, 복잡한 제어정책을 안정적으로 수렴시키는 강화학습에 성공하였다. 본 알고리즘이 발표된 첫 논문인 TP. Lillicrap(2016)에서는 컴퓨터가 Atari game을 배우도록 학습시켰는데, 그 결과 놀랍게도 많은 게임에서 인간의 수준을 뛰어넘는 플레이를 하도록 학습되었다. 이러한 성공에 따라 많은 연구진들이 이 학습방식에 관심을 가지고 있다. DDPG는 오히려 atari보다는 continuos action space, 그니까 로봇의 팔을 움직이는 등의 정책망에서 빛을 발한다.
3. 관련 문서