나무모에 미러 (일반/밝은 화면)
최근 수정 시각 : 2025-06-12 08:28:00

DDPG

파일:Google Deepmind 로고 화이트.svg
{{{#!wiki style="min-height: calc(1.5em + 5px); margin: 0 -10px -5px"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin: -5px -1px -11px"
<colbgcolor=#0053d6,#0053d6><colcolor=#fff,#fff> 상용 모델 Gemini · Gemma · Imagen · Veo · Gemini Live
과학
인공지능
생물학 AlphaFold · AlphaGenome · AlphaMissense · AlphaProteo
날씨 예측 GenCast · WeatherNext
수학·
컴퓨터 과학
AlphaEvolve · AlphaProof · AlphaGeometry · AlphaChip
물리·화학 GNoME · Google DeepMind · AlphaQubit · FermiNet
게임 인공지능 알파고(알파고 마스터 · 알파고 제로) · AlphaZero · AlphaStar · MuZero
관련 인물 데미스 허사비스 · 무스타파 슐레이만
관련 문서 DQN · DDPG · Reward is enough · 구글 딥마인드 챌린지 매치 · 바둑의 미래 서밋 · 알파고 vs 알파고
}}}}}}}}} ||
1. 개요2. 상세3. 관련 문서

1. 개요

Deep Deterministic Policy Gradient (심층 결정론적 정책 경사법)
강화학습의 한 방법으로써 2016년에 구글 딥마인드 연구진 TP. Lillicrap등에 의해 제안되었다.

2. 상세

본 기법은 기존 2014년, D. Silver(2014)에 의해 제안된 Deterministic Policy Gradient (DPG)와 V. Mnih(2015)가 제안한 DQN 연구에서 아이디어를 얻었다. 알고리즘의 기반은 off-policy, continuous actor-critic이라는 DPG알고리즘에 기반을 두고 있으나, 좀 더 복잡성 높은 학습을 수행하기 위하여 딥러닝을 함께 사용하려 시도했다. 그러기 위해 딥러닝이 갖는 발산성문제를 해결하기 위해 DQN에서 제안한 soft update 및 batch learning을 도입하였다. 그 결과, 복잡한 제어정책을 안정적으로 수렴시키는 강화학습에 성공하였다. 본 알고리즘이 발표된 첫 논문인 TP. Lillicrap(2016)에서는 컴퓨터가 Atari game을 배우도록 학습시켰는데, 그 결과 놀랍게도 많은 게임에서 인간의 수준을 뛰어넘는 플레이를 하도록 학습되었다. 이러한 성공에 따라 많은 연구진들이 이 학습방식에 관심을 가지고 있다. DDPG는 오히려 atari보다는 continuos action space, 그니까 로봇의 팔을 움직이는 등의 정책망에서 빛을 발한다.

3. 관련 문서