码迷,mamicode.com
首页 > 其他好文 > 详细

CS294-112 深度强化学习 秋季学期(伯克利)NO.4 Policy gradients introduction

时间:2018-05-25 00:27:41      阅读:421      评论:0      收藏:0      [点我收藏+]

标签:info   yellow   increase   http   深度   bsp   分享图片   com   分享   

技术分享图片

 

 

 

 技术分享图片

 

 

 

 

 

 技术分享图片

 

 

 

 技术分享图片

 

 

 

 技术分享图片

 

 

 

 技术分享图片

 

 

 

 技术分享图片

 

 

 

 技术分享图片

 

 

 

 技术分享图片

 

 

 

 技术分享图片

 

 

 

 技术分享图片

 

 

 技术分享图片

green bar is the reward function, blue curve is the possibility of differenct trajectories

 

 

 

 技术分享图片

if green bars are equally increased to yellow bars, the result will change!

 

 

 

 技术分享图片

 

 

 技术分享图片

 

 

 

 技术分享图片

 

 

 

 技术分享图片

 

 技术分享图片

 

 

 

  技术分享图片

 

 

 

 技术分享图片

 

 

 

 技术分享图片

 

 

 

 技术分享图片

 

 

 

 技术分享图片

 

 

 

 技术分享图片

 

 

 

 技术分享图片

 

 

 技术分享图片

 

 

 技术分享图片

 

 

  

 技术分享图片

 

 

 技术分享图片

技术分享图片

 

 

 技术分享图片

 

 

 技术分享图片

 

 

 

 

 技术分享图片

 

 

 

 

 技术分享图片

 

 

 技术分享图片

技术分享图片

技术分享图片

 

 

 

 技术分享图片

 

CS294-112 深度强化学习 秋季学期(伯克利)NO.4 Policy gradients introduction

标签:info   yellow   increase   http   深度   bsp   分享图片   com   分享   

原文地址:https://www.cnblogs.com/ecoflex/p/9085805.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!