1、策略迭代、价值迭代、泛化迭代的前提条件:智能体知道环境的状态转移概率,即是基于模型的问题 2、蒙特卡洛方法采样:随机采样估计期望值,通过样本序列逼近真实的期望值。 成立原因:大数定理。 3、探索和利用,探索指的是不拘于当前的表现,选择不同于当前策略的行动;利用是持续使用当前的最优策略,尽可能的获 ...
分类:
其他好文 时间:
2019-09-16 11:55:04
阅读次数:
88
1| reward. shaping 如果对vs有大致的认知,把势能potential-based定义为估计的最优价值函数,能加快价值函数收敛 2、gae:广义优势估计 absorb state:terminal state γ-just条件:尚未理解 GAE(Generalized Advanta ...
今日完成 完成了对于虚拟样本的实验。 即以不同虚拟样本占比为横坐标,比较loss和准确度是否有提升。 结果:毫无规律可言。 在网上继续寻找论文。 所幸其上两篇文章里的准确率都不高,甚至可以说是非常的低,给了我非常大的信息和鼓舞。 明日目标 继续做实验,复验神经网络的泛化能力是否足够,今天似乎已经发现 ...
分类:
其他好文 时间:
2019-09-12 21:35:19
阅读次数:
88
模型性能评估 模型性能评估是为了评价模型的泛化能力,模型性能评估主要有两个问题要解决: 1)用什么数据来评估? 2)用什么标准来评估? 下面的第一节内容主要解答用什么数据来评估模型的性能,第二节解答用什么标准来评估。 1.用什么数据来评估模型性能 常用的有3中,按照复杂程度程度排序分别为: 1)训练 ...
分类:
其他好文 时间:
2019-09-11 11:48:59
阅读次数:
143
1.依赖Dependency: 其中 Boat 作为Man river_crossing(过河)的参数 2.关联Association: 其中 grade 作为Student的一个私有变量 3聚合Aggregation: 这里强调的是has-a 4组合Composition: 这里强调Room随Ho ...
分类:
其他好文 时间:
2019-09-08 18:10:48
阅读次数:
103
1、用例关联:就是各个用例之间的关系,分3种关系分别是:包含关系、扩展关系、泛化关系。 2、包含关系 1)、示例 2)、使用场景 3、术语 4、扩展关系 如果某个用例文本因为某些原因不能被修改,但是,业务要修改,怎么办?答:创建扩展或附加用例,并且在其中指明扩展点,即:在何处、何种条件下触发扩展用例 ...
分类:
其他好文 时间:
2019-08-27 19:38:31
阅读次数:
93
这个题用优化后的依赖背包做难以实现,所以用常规的泛化物品的和来做即可 每个节点的容量定义为这个节点下的叶子结点个数,dp[u][j]用来表示节点u下选取j个物品的最大收益,最后从m-0查询dp[1][i],一旦发现是非负数,i则是答案 需要注意的地方:初始化时将所有的dp[i][0]都赋值为0,一个 ...
分类:
其他好文 时间:
2019-08-20 20:14:24
阅读次数:
73
·玄学的东西 ·定义:如果物品k的价值w并不是固定的,而是随着投入的费用c改变而改变,那么这是个泛化物品。 ·不得不介绍的两种关系: 请- 1.独立结合:两个物品都可以被分到某东西的一部分。 2.互斥结合:两个物品中只有一个能被分到某东西。 ·泛化物品在背包中的show: ...
分类:
其他好文 时间:
2019-08-19 21:01:01
阅读次数:
79
前面我们学习过深度学习中用于加速网络训练、提升网络泛化能力的两种策略:Batch Normalization(Batch Normalization)和Layer Normalization(LN)。今天讨论另一种与它们类似的策略:Weight Normalization(Weight Normal ...
分类:
其他好文 时间:
2019-08-19 09:21:25
阅读次数:
139
1、支撑向量机SVM是一种非常重要和广泛的机器学习算法,它的算法出发点是尽可能找到最优的决策边界,使得模型的泛化能力尽可能地好,因此SVM对未来数据的预测也是更加准确的。 2、SVM既可以解决分类问题,又可以解决回归问题,原理整体相似,不过也稍有不同。 在sklearn章调用SVM算法的代码实现如下 ...
分类:
编程语言 时间:
2019-08-17 15:05:06
阅读次数:
140