TD是一个结合DP和MC之间的方法。TD不需要环境模型,但是又可以bootstrap。 6.1 TD预测 典型的TD(0)预测方程: 看第三章关于状态价值的等式: MC用的是第一行,它之所以为估计,因为不知道$G_t$的期望值,而使用的采样来做的平均。 DP用的是最后一行,它之所以为估计,是因为不知 ...
分类:
其他好文 时间:
2017-10-04 00:16:54
阅读次数:
279
5.1 蒙特卡洛预测 分为两种:First-Visit MC和Every-Visit MC,前者用的更多。后者用于函数近似和Eligibility Traces 5.2 蒙特卡洛评估action value 如果没有模型(即不知道每个a会得到什么样的s),则应该使用action value而不是st ...
分类:
其他好文 时间:
2017-10-03 20:36:48
阅读次数:
202
最优价值函数满足下列条件: 4.1 策略评估 策略评估通过反复迭代的方式来进行: 4.2 策略改进 4.3 策略迭代 综合4.1和4.2,得到策略迭代算法: 4.4 价值迭代 对4.3进行简化,两步合为一步: 4.5 异步动态规划 通过安排迭代顺序,而不是每次都整个扫一遍,来更快地获得我们想要的状态 ...
分类:
其他好文 时间:
2017-10-03 18:59:36
阅读次数:
214
对于增强学习的控制问题,有两个著名的基础算法:Sarsa、Q-Learning (1) Sarsa 算法流程: 对于所有状态 s 以及动作 a 进行任意初始化,将所有终止状态的 Value-Action 值设为0 迭代每一训练集episode: 初始化状态 S 根据策略Q,按照当前的状态 S,选择动 ...
分类:
其他好文 时间:
2017-09-17 13:47:33
阅读次数:
166
来源:NIPS 2013 作者:DeepMind 理解基础: 增强学习基本知识 深度学习 特别是卷积神经网络的基本知识 创新点:第一个将深度学习模型与增强学习结合在一起从而成功地直接从高维的输入学习控制策略 详细是将卷积神经网络和Q Learning结合在一起。卷积神经网络的输入是原始图像数据(作为 ...
分类:
其他好文 时间:
2017-07-30 19:55:57
阅读次数:
224
KMP算法 看了就明白 笔者学习串的匹配时,就是在目标串(主串)中找到与模式串(子串)一样的部分,返回它的子串位置的操作,这叫串的模式匹配。 一种效率低的算法,主串与子串从第一个字符进行比较,直到某一个不相等,然后主串退回到第二个字符重新开始,子串重新从首字符开始与主串进行匹配,一直循环进行比较,这 ...
分类:
编程语言 时间:
2017-07-24 16:30:37
阅读次数:
218
现有的机器学习算法根据模型的学习过程大致可以分为四类:监督式学习,无监督式学习,半监督式学习和增强学习。 ① 监督式学习:从标记好的训练数据中进行模型的训练,常用来做分类和回归,例如逻辑回归、反向神经网络; ② 无监督式学习:根据数据的特征直接对数据的结构和数值进行归纳,常用来做聚类,例如周知的K- ...
分类:
其他好文 时间:
2017-06-16 23:02:32
阅读次数:
359
“敢于尝试,才有突破” 2017年5月27日,当今世界排名第一的中国棋手柯洁与AlphaGo 2.0的三局对战落败。该事件标志着最新的人工智能技术在围棋竞技领域超越了人类智能,借此机会,介绍一下AlphaGo背后的秘密——增强学习技术。 增强学习(Reinforcement Learning),也称 ...
分类:
其他好文 时间:
2017-06-10 19:22:56
阅读次数:
138
一、要求:Tcode:FF_5 导入数据运行时,产生财务凭证之前修改某些字段值。Exmp:FEBRE-VWEZWBKPF-XBLNRFEBEP-CHECTBSEG-ZUONR there is a business Add-in(BADI) with the definition name FEB_ ...
分类:
其他好文 时间:
2017-05-27 10:27:42
阅读次数:
358
转自:http://blog.csdn.net/songrotek/article/details/51382759 博客地址:http://blog.csdn.net/songrotek/article/category/5419801 ...
分类:
编程语言 时间:
2017-05-05 14:11:31
阅读次数:
181