码迷,mamicode.com
首页 > 其他好文 > 详细

Deep RL Bootcamp Lecture 5: Natural Policy Gradients, TRPO, PPO

时间:2018-05-01 20:50:24      阅读:394      评论:0      收藏:0      [点我收藏+]

标签:lower   http   form   alt   sam   HERE   web   sample   uga   

技术分享图片

 

 

 

 

 

 技术分享图片

 

 

 

 技术分享图片

 

 

 

 

 技术分享图片

 

 

 

 

技术分享图片

https://statweb.stanford.edu/~owen/mc/Ch-var-is.pdf

 https://zhuanlan.zhihu.com/p/29934206

 

 

 

 

技术分享图片

 

 

 

 

 

 

 技术分享图片

 blue curve is the lower bounded one

 

 

 

技术分享图片

 

conjugate gradient to solve the optimization problem.

 

 

技术分享图片

Fisher information matrix, natural policy gradient

 

 

 

 

技术分享图片

 

 

 

 

 

 技术分享图片

 

To write down an optimization problem, we can solve more robustly with more sample efficiency to update policy

 But Lis Lpg is not constrained, so we use KL to ...

 

 

 

技术分享图片

it‘s hard to choose beta

 

 

 

 

 技术分享图片

 

 

 

 

技术分享图片

 

 

 

 

 技术分享图片

 

 

 

 

 

技术分享图片

 

 

 

 

技术分享图片

 

 

 

 

 技术分享图片

 

 

 

 

 

 技术分享图片

 

 

 

 

技术分享图片

 

TRPO is much worse than A3C on imaging game, where PPO does better

see the slide: limitations of TRPO

 

 

 

技术分享图片

 

 

技术分享图片

 

 

 

技术分享图片

 

Deep RL Bootcamp Lecture 5: Natural Policy Gradients, TRPO, PPO

标签:lower   http   form   alt   sam   HERE   web   sample   uga   

原文地址:https://www.cnblogs.com/ecoflex/p/8976876.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!