码迷,mamicode.com
首页 > 其他好文 > 详细

【李宏毅】2020 最新课程 (完整版) 强化学习(2)

时间:2020-09-15 20:55:08      阅读:55      评论:0      收藏:0      [点我收藏+]

标签:sha   --   alt   order   distrib   ros   png   noi   inf   

 

技术图片

 

 技术图片

 

 技术图片

 

 技术图片

 

 技术图片

 

 

 有点像行政 v.s. 立法,一个 Q 只能负责提案,一个Q只能负责执行

 

技术图片

 

 技术图片

 

 技术图片

 

 技术图片

 

 不需要 sample 所有的 (s,a) pair;你可以用非常 efficient 的方式去 estimate 一个 Q-val 出来;

--> 这里用个什么隐向量啥的岂不是更好 

 

技术图片

 

 技术图片

 

 技术图片

 

 技术图片

 

 技术图片

 

 技术图片

 

 

--> 参数加 noise 的方式很值得深入研究

类似 adversarial attack 的研究

 

技术图片

 

 Distributional Q-func 在实作中大家follow 得不多,可能原因是因为实作困难

 

技术图片

 

 技术图片

 

 技术图片

 

 技术图片

 

 distributional 不会有比较大的 overestimate 的原因:类似特征工程里面的离散化。。。

 

 

 

 

【李宏毅】2020 最新课程 (完整版) 强化学习(2)

标签:sha   --   alt   order   distrib   ros   png   noi   inf   

原文地址:https://www.cnblogs.com/cx2016/p/13598653.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!