PS:本文为阅读周志华《机器学习》笔记 介绍-------任务与奖赏 我们如果要种西瓜,那要经过很多步骤后,才有可能种出一田好瓜,当然也有可能种出的瓜很差,或者直接给种死了。那么将种瓜的过程抽象出来,总结出一系列好的操作,归为种瓜策略,那么,这个过程,就是“增强学习”。 这是一个简单的图示,其中: ... ...
分类:
其他好文 时间:
2016-05-31 10:16:46
阅读次数:
414
1 前言在上一篇blog中,我们分析了蒙特卡洛方法,这个方法的一个特点就是需要运行完整个episode从而获得准确的result。但是往往很多场景下要运行完整个episode是很费时间的,因此,能不能还是沿着bellman方程的路子,估计一下result呢?并且,注意这里,依然model free。那么什么方法可以做到呢?就是TD(temporal-difference时间差分)方法。有个名词注意一...
分类:
编程语言 时间:
2016-05-13 15:18:50
阅读次数:
237
1 前言在上一篇文章中,我们介绍了基于Bellman方程而得到的Policy Iteration和Value Iteration两种基本的算法,但是这两种算法实际上很难直接应用,原因在于依然是偏于理想化的两个算法,需要知道状态转移概率,也需要遍历所有的状态。对于遍历状态这个事,我们当然可以不用做到完全遍历,而只需要尽可能的通过探索来遍及各种状态即可。而对于状态转移概率,也就是依赖于模型Model,这...
分类:
编程语言 时间:
2016-05-13 15:12:56
阅读次数:
1007
本文介绍增强学习和自适应控制。 在监督学习中,算法是要输出尽量模仿训练集中的标签 y,标签给每个输入 x 一个清楚的正确答案。与此不同,对于许多序列决策和控制问题,就很难对算法给出这种明确的监督。例如,如果要造一个四足机器人,并编程让它行走,起初我们并不知道让它行走的正确行动,所以也不知道怎么模仿学 ...
分类:
其他好文 时间:
2016-04-27 12:18:40
阅读次数:
170
【原创】AlphaGo怎么下围棋的最近DeepMind团队(google旗下)的AlphaGo(一个围棋的AI)以4:1战胜顶尖人类职业棋手李世石。她到底是怎么下棋的?AlphaGo在面对当前棋局时,她会模拟(推演棋局)N次,选劝模拟”次数最多的走法,这就是AlphaGo认为的最优走法。例如图中,所有没有..
分类:
其他好文 时间:
2016-03-23 20:31:28
阅读次数:
329
来源:ICML 2015 Deep Learning Workshop作者:Google DeepMind创新点:构建第一个用于深度增强学习的大规模分布式结构该结构由四部分组成:
并行的行动器:用于产生新的行为
并行的学习器:用于从存储的经验中训练
分布式的神经网络:用于表示value function或者policy
分布式的经验存储
实验结果:将DQN应用在该体系结构上,训练的水平在49个游戏中...
分类:
其他好文 时间:
2016-03-18 09:36:04
阅读次数:
263
2 Dom4j修改xml文档 2.1 写出内容到xml文档 XMLWriter writer = new XMLWriter(OutputStream, OutputForamt) wirter.write(Document); 2.2 修改xml文档的API 增加: DocumentHelper.
分类:
其他好文 时间:
2016-02-26 18:42:11
阅读次数:
211
## Introduction
深度增强学习Deep Reinforcement Learning是将深度学习与增强学习结合起来从而实现从Perception感知到Action动作的端对端学习的一种全新的算法。简单的说,就是和人类一样,输入感知信息比如视觉,然后通过深度神经网络,直接输出动作,中间没有hand-crafted工作。深度增强学习具备使机器人实现完全自主的学习一种甚至多种技能的潜力。...
分类:
其他好文 时间:
2016-01-25 17:23:09
阅读次数:
589
1 学习资料增强学习课程 David Silver (有视频和ppt):http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html最好的增强学习教材:Reinforcement Learning: An Introductionhttps://webdocs.cs.ualberta.ca/~sutton/book/the-book.html 深...
分类:
其他好文 时间:
2016-01-24 11:42:10
阅读次数:
215
增强学习(Reinforcement Learning and Control)[pdf版本]增强学习.pdf 在之前的讨论中,我们总是给定一个样本x,然后给或者不给label y。之后对样本进行拟合、分类、聚类或者降维等操作。然而对于很多序列决策或者控制问题,很难有这么规则的样本。比如,四足机器人...
分类:
其他好文 时间:
2015-07-29 15:36:56
阅读次数:
173