一、AdaBoost简介 Boosting, 也称为增强学习或提升法,是一种重要的集成学习技术, 能够将预测精度仅比随机猜度略高的弱学习器增强为预测精度高的强学习器,这在直接构造强学习器非常困难的情况下,为学习算法的设计提供了一种有效的新思路和新方法。其中最为成功应用的是,Yoav Freund和R ...
分类:
编程语言 时间:
2018-05-20 00:47:29
阅读次数:
391
说到AI离不开AlphaGO。但从技术的角度说,真正带来突破的其实来自算法。AlphaGO算法的创新可以分为离线训练和在线对弈。其中,离线训练表现为基于全局特征深度卷积网络的策略网络,它通过增强学习来优化和修正网络参数,用价值网络判断输赢的概率;至于在线部分,核心就在于蒙特卡洛算法。 不要被 “深度 ...
分类:
移动开发 时间:
2018-04-28 14:21:25
阅读次数:
226
机器学习算法可以分为: 监督学习 非监督学习 半监督学习 增强学习 监督学习:给机器的训练数据拥有“标记”或者“答案”,例如: 我们需要告诉机器左边的画面是一只狗,而右边的照片是一只猫。同理对于MNIST数据集,给机器图像信息后还应该附上标记信息,如图所示: 运用监督学习的场景举例: 图像已经拥有了 ...
分类:
编程语言 时间:
2018-04-22 13:01:52
阅读次数:
199
(没太听明白,下次重新听) 1. 增强学习 有一个 Agent 和 Environment 交互。在 t 时刻,Agent 获知状态是 st,做出动作是 at;Environment 一方面给出 Reward 信号 rt,另一方面改变状态至 st+1;Agent 获得 rt 和 st+1。目标是 A ...
分类:
编程语言 时间:
2017-12-10 19:33:47
阅读次数:
215
源地址 http://blog.csdn.net/supercally/article/details/54754787 2. 增强学习都有哪些策略 蒙特卡洛方法 简单而言,蒙特卡洛方法就是对这个策略所有可能的结果求平均。我们向前走了以后,再做一个action,根据这个式子,直到episode结束, ...
分类:
其他好文 时间:
2017-10-24 14:06:45
阅读次数:
140
10.1 片段性任务的半梯度控制 10.2 n步Sarsa控制 10.3 平均奖励:连续任务的新设定 定义一个策略的优劣函数:依照该策略执行的平均奖励 其中和起始状态无关,称为各态遍历性。早期任何决策的影响都是暂时性的,长期的平均收益仅仅取决于策略本身和环境的转移概率 $\eta$函数用来评估一个策 ...
分类:
其他好文 时间:
2017-10-07 16:12:15
阅读次数:
123
8.1 模型与规划 规划,指利用已有经历对环境提炼模型,减少对环境交互的依赖。 8.2 Dyna框架 8.3 当模型不对时 第一种情况,原路已经行不通,在堵塞处往返多次后,value会被慢慢修正,并找到正确的路 第二种情况,发现新的短路,这种情况吧Dyna-Q几乎找不到这条路,但是Dyna-Q+作了 ...
分类:
其他好文 时间:
2017-10-05 22:40:39
阅读次数:
251
对于状态空间太大的问题,表格类方法无法存储这么大的价值表,也没有办法穷尽这么多的状态。考虑到很多状态是相似的,知道一个状态的价值也就大概知道类似状态的价值,因此可以采用函数近似的方法,函数近似是监督学习的一个应用。 这一章我们主要做价值函数的近似。我们定义一个N维参数$\boldsymbol \th ...
分类:
其他好文 时间:
2017-10-05 22:40:10
阅读次数:
250
多步TD是介于单步TD和MC之间的一种方法 7.1 多步TD预测 首先,定义n-step return: 得出n步迭代更新: 其中$G_t^{(n)}$满足下列误差递减性质: 当n取一个折衷值的时候,平方误差最小 7.2 n步Sarsa 将状态价值换为动作价值,重新描述$G_t^{(n)}$: 以及 ...
分类:
其他好文 时间:
2017-10-05 12:18:21
阅读次数:
128