DDPG

[[Google DeepMind\| DeepMind 딥마인드 ]]
{{{#!wiki style="min-height: calc(1lh + 5px); margin: 0 -10px -5px" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin: -5px -1px -11px"	<colbgcolor=#0053d6,#0053d6><colcolor=#fff,#fff> 상용 모델		Gemini · Gemma · Imagen · Veo · Gemini Live
과학 인공지능
	생물학	AlphaFold · AlphaGenome · AlphaMissense · AlphaProteo
	지구환경	WeatherNext · AlphaEarth Foundations · Perch
	물리·화학	TORAX · GNoME · AlphaQubit · DeepMind 21 · FermiNet
	수학·컴퓨터공학	AlphaEvolve · AlphaProof · AlphaGeometry · AlphaChip · FunSearch · AlphaDev
게임 인공지능		알파고(알파고 마스터 · 알파고 제로) · AlphaZero · AlphaStar · MuZero
관련 인물		데미스 허사비스 · 무스타파 슐레이만
관련 문서		DQN · DDPG · Reward is enough · 구글 딥마인드 챌린지 매치 · 바둑의 미래 서밋 · 알파고 vs 알파고

}}}}}}}}} ||

1. 개요2. 상세3. 관련 문서

1. 개요

Deep Deterministic Policy Gradient (심층 결정론적 정책 경사법)
강화학습의 한 방법으로써 2016년에 구글 딥마인드 연구진 TP. Lillicrap등에 의해 제안되었다.

2. 상세

본 기법은 기존 2014년, D. Silver(2014)에 의해 제안된 Deterministic Policy Gradient (DPG)와 V. Mnih(2015)가 제안한 DQN 연구에서 아이디어를 얻었다. 알고리즘의 기반은 off-policy, continuous actor-critic이라는 DPG알고리즘에 기반을 두고 있으나, 좀 더 복잡성 높은 학습을 수행하기 위하여 딥러닝을 함께 사용하려 시도했다. 그러기 위해 딥러닝이 갖는 발산성문제를 해결하기 위해 DQN에서 제안한 soft update 및 batch learning을 도입하였다. 그 결과, 복잡한 제어정책을 안정적으로 수렴시키는 강화학습에 성공하였다. 본 알고리즘이 발표된 첫 논문인 TP. Lillicrap(2016)에서는 컴퓨터가 Atari game을 배우도록 학습시켰는데, 그 결과 놀랍게도 많은 게임에서 인간의 수준을 뛰어넘는 플레이를 하도록 학습되었다. 이러한 성공에 따라 많은 연구진들이 이 학습방식에 관심을 가지고 있다. DDPG는 오히려 atari보다는 continuos action space, 그니까 로봇의 팔을 움직이는 등의 정책망에서 빛을 발한다.

3. 관련 문서

Google deepmind의 인공신경망 연구 DQN, DDPG, A3C , UNREAL
Google deepmind의 인공지능 연구 AlphaGo

DDPG

1. 개요

2. 상세

3. 관련 문서

분류