CS229 - MachineLearning - 12 强化学习笔记

时间：2017-11-17 21:09:22 阅读：191 评论：0 收藏：0 [点我收藏+]

Ng的机器学习课，课程资源： cs229-课件网易公开课-视频

五元组{S、a、P_sa、γ、R}，分别对应 {状态、行为、状态s下做出a行为的概率、常数、回报}。

选择一个policy以获得最佳报酬：E[R(s0)+γR(s₁)+γ²R(s₂)+......]，常数γ的存在可以保证尽量快地获得收益。

技术分享图片

根据贝尔曼方程，

技术分享图片

R(s)表示执行此策略获得的直接收益，后面那一堆是执行了此策略以后再后面的行为获得的收益。

最优策略满足：

技术分享图片

那么在s状态下的最有策略是满足以下等式的行为：

技术分享图片

这样，就可以迭代计算了。

技术分享图片

但实际操作中P_sa是未知的，所以需要先统计次数，针对课上举的机器人移动的例子，Ng解释说可以先让机器人随便走，统计到达每个状态的次数。

技术分享图片

所以强化学习的完整实现过程是这样：

技术分享图片

原文地址：http://www.cnblogs.com/zhengmeisong/p/7853175.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行