立帖要读paper,已经过了快两周了,还一篇博文都没发出来,略汗。 今天第一篇,读的是今年ICML的十年Test of Time Award得奖论文Combining Online and Offline Knowledge in UCT,来自Sylvain Gelly和David Silver,发 ...
分类:
其他好文 时间:
2017-08-15 10:11:56
阅读次数:
288
1、一般的策略迭代优化的方法 1)策略评估 2)策略改善 2、model free的策略迭代优化的方法 基于v(s)的优化需要MDP,基于Q的优化不需要,所以策略是 1)使用Q函数策略评估 2)使用厄普西隆贪心策略优化 缺点:非常慢 修正方案:不用积累一批episode再优化;每个episode都优 ...
分类:
其他好文 时间:
2017-08-14 10:06:35
阅读次数:
260
题目链接:http://poj.org/problem?id=3268 题意:n只奶牛(分别在1-n奶牛舍)分别从各自的奶牛舍出发到X奶牛舍,然后回到自己的奶舍(都以最短路),求出哪一只奶牛花费的距离最远。 题解:n到达1000,想直接Floyd肯定不行。 从X奶牛舍回家,就直接以X为源点最短路就可 ...
分类:
其他好文 时间:
2017-08-14 00:28:18
阅读次数:
110
0、为什么免模型学习? PS:课程中迭代的值是值函数;周志华老师的西瓜书中迭代的是状态值函数;课程中迭代的是状态-动作值函数 1、蒙特卡洛方法:直接通过采样求和(v(s) = S(s)/n(s),其中S(s) = S(s) + G(t),G(t)=r(t+1)+r(t+2)+...) 1.1、蒙特卡 ...
分类:
其他好文 时间:
2017-08-13 22:12:57
阅读次数:
1149
Heinrich, Johannes, and David Silver. "Deep reinforcement learning from self-play in imperfect-information games." arXiv preprint arXiv:1603.01121(201 ...
分类:
其他好文 时间:
2017-08-11 21:59:42
阅读次数:
158
I'm changing the background color based on the data but it makes my text hard to read so I need to change the font color (to white if I have a darker ...
分类:
其他好文 时间:
2017-08-10 22:25:20
阅读次数:
157
bzoj 1606: [Usaco2008 Dec]Hay For Sale 购买干草 #include<cstdio> #include<cstring> #include<algorithm> using namespace std; int read(){ int ans=0,f=1,c=ge ...
分类:
其他好文 时间:
2017-08-10 10:07:57
阅读次数:
164
1436 孪生素数 2 时间限制: 2 s 空间限制: 1000 KB 题目等级 : 白银 Silver 题解 1436 孪生素数 2 1436 孪生素数 2 时间限制: 2 s 空间限制: 1000 KB 题目等级 : 白银 Silver 时间限制: 2 s 空间限制: 1000 KB 题目等级 ...
分类:
其他好文 时间:
2017-08-08 20:49:21
阅读次数:
175
Silver Cow Party Time Limit: 2000MS Memory Limit: 65536K Total Submissions: 23426 Accepted: 10691 Description One cow from each of N farms (1 ≤ N ≤ 10 ...
分类:
其他好文 时间:
2017-08-08 10:47:35
阅读次数:
141
目录 grep 正则表达式 grep用法简介 我们介绍GREP的用法,主要用于匹配行,我们借助下面的正则表达式来介绍如何使用grep,还有就是正则表达式在linux中是极为重要的一部分。 1 命令:grep 2 格式:grep [option] "pattern" filename 3 选项: 4 ...
分类:
其他好文 时间:
2017-07-30 21:06:29
阅读次数:
189