首页 > 其他好文 > 详细

强化学习（8）------动态规划

时间：2021-06-02 13:25:23 阅读：0 评论：0 收藏：0 [点我收藏+]

标签：inf src lazy href com 价值强化学习 form 本质

一、动态规划

当问题具有下列两个性质时，通常可以考虑使用动态规划来求解：

一个复杂问题的最优解由数个小问题的最优解构成，可以通过寻找子问题的最优解来得到复杂问题的最优解
子问题在复杂问题内重复出现，使得子问题的解可以被存储起来重复利用

马尔科夫决策过程具有上述两个属性：贝尔曼方程把问题递归为求解子问题，价值函数相当于存储了一些子问题的解，可以复用。

二、MDP

马尔科夫决策过程需要解决的问题有两种：

预测(Prediction)：对给定策略的评估过程。已知一个马尔科夫决策过程以及策略，目标是求解基于该策略的价值函数 $技术图片$ ，即处于每个状态下能够获得的奖励(reward)是多少。
控制(Control)：寻找一个最优策略的过程。已知一个马尔科夫决策过程但是策略未知，求解最优价值函数 $技术图片$ 和最优策略 $技术图片$ 。

动态规划算法的核心是用值函数来构建对最优策略 $技术图片$ 的搜索，如果最优值函数 $技术图片$ 和 $技术图片$ 已知，就能获得最优策略 $技术图片$ 。其中 $技术图片$ 和 $技术图片$ 满足如下方程：

$技术图片$ $技术图片$

三、策略评估(Policy Evaluation)

策略评估 (Policy Evaluation) 指计算给定策略下状态价值函数 $技术图片$ 的过程。

策略评估可以使用同步迭代联合动态规划的算法：从任意一个状态价值函数开始，依据给定的策略，结合贝尔曼期望方程、状态转移概率和奖励，同步迭代更新状态价值函数直至其收敛，得到该策略下最终的状态价值函数。理解该算法的关键在于在一个迭代周期内如何更新每一个状态的价值。

四、策略提升 (Policy Improvement)

五、策略迭代 (Policy Iteration)

策略迭代一般分成两步：

策略评估(Policy Evaluation)：基于当前的策略计算出每个状态的价值函数
策略提升 (Policy Improvement)：基于当前的价值函数，采用贪心算法来找到当前最优的策略

技术图片、

本质上就是使用当前策略产生新的样本，然后使用新的样本更好的估计策略的价值，然后利用策略的价值更新策略，然后不断反复。由于一个有限的马尔可夫决策过程只有有限个策略，这个过程一定能够在有限的迭代次数后收敛到最优的策略和最优的价值函数。

六、值迭代 (Value Iteration)

参考：

https://zhuanlan.zhihu.com/p/72360992

强化学习（8）------动态规划

标签：inf src lazy href com 价值强化学习 form 本质

原文地址：https://www.cnblogs.com/Lee-yl/p/14819464.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！