码迷,mamicode.com
首页 > 系统相关 > 详细

CS229 - MachineLearning - 12 强化学习笔记

时间:2017-11-17 21:09:22      阅读:191      评论:0      收藏:0      [点我收藏+]

标签:需要   .com   技术分享   移动   学习笔记   nbsp   html   操作   ges   

Ng的机器学习课,课程资源: cs229-课件    网易公开课-视频

问题数学模型:

五元组{S、a、Psa、γ、R},分别对应 {状态、行为、状态s下做出a行为的概率、常数、回报}。

优化目标:

选择一个policy以获得最佳报酬:E[R(s0)+γR(s1)+γ2R(s2)+......],常数γ的存在可以保证尽量快地获得收益。

优化函数:

技术分享图片

根据贝尔曼方程,

技术分享图片

R(s)表示执行此策略获得的直接收益,后面那一堆是执行了此策略以后再后面的行为获得的收益。

最优策略满足:

技术分享图片 技术分享图片

 那么在s状态下的最有策略是满足以下等式的行为:

技术分享图片

这样,就可以迭代计算了。

求解方法:

技术分享图片

但实际操作中Psa是未知的,所以需要先统计次数,针对课上举的机器人移动的例子,Ng解释说可以先让机器人随便走,统计到达每个状态的次数。

技术分享图片

所以强化学习的完整实现过程是这样:

技术分享图片

 

CS229 - MachineLearning - 12 强化学习笔记

标签:需要   .com   技术分享   移动   学习笔记   nbsp   html   操作   ges   

原文地址:http://www.cnblogs.com/zhengmeisong/p/7853175.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!