数据集 样本 特征 特征取值 维数 训练数据 训练样本 泛化:学得的模型适用于新样本的能力 归纳与演绎:前者是从特殊到一般的泛化过程,即从具体的事实归结出一般性的规律后者是从一般到特殊的“特化”过程,即从基础原理推演出具体情况。 假设空间 版本空间:可能有多个假设集合与训练集一致,即存在一个与假设即 ...
分类:
其他好文 时间:
2018-07-16 15:04:49
阅读次数:
152
性能度量是衡量模型泛化能力的评判标准,性能度量反映了任务需求,在对比不同模型的能力时,使用不同的性能度量往往会导致不同的评判结果,因此什么样的模型是好的,不仅取决于算法和数据,还取决于任务需求。 1、错误率和精度 其实说白了就是我们的损失函数所体现的指标,比如常见的在分类问题中分类错误类别所占的比例 ...
分类:
其他好文 时间:
2018-07-15 21:24:50
阅读次数:
318
一、什么是正则化 正则化即为对学习算法的修改,旨在减少泛化误差而不是训练误差。正则化的策略包括: (1)约束和惩罚被设计为编码特定类型的先验知识 (2)偏好简单模型 (3)其他形式的正则化,如:集成的方法,即结合多个假说解释训练数据 在实践中,过于复杂的模型不一定包含数据的真实的生成过程,甚至也不包 ...
分类:
其他好文 时间:
2018-07-14 20:03:37
阅读次数:
331
1.概要 本文描述一个通过C++可变参数模板实现C++反射机制的方法。该方法非常实用,在Nebula高性能网络框架中大量应用,实现了非常强大的动态加载动态创建功能。Nebula框架在coding.net的仓库地址。 C++11的新特性--可变模版参数(variadictemplates)是C++11新增的最强大的特性之一,它对参数进行了高度泛化,它能表示
分类:
编程语言 时间:
2018-07-14 19:29:07
阅读次数:
272
#和随机森林一样,基于决策树,采用连续的方式构建树,深度很小max_depth<5.重要的参数n_estimate和learning_rate,这两个参数的y作用在于对模型过拟合化得调整,从而提高模型得泛化能力。 from sklearn.ensemble import GradientBoosti ...
分类:
编程语言 时间:
2018-07-14 19:26:44
阅读次数:
533
当看过一些简单的机器学习算法或者模型后,对于具体问题该如何评估不同模型对具体问题的效果选择最优模型呢。 1. 经验误差、泛化误差 假如m个样本中有a个样本分类错误 错误率:E = a / m; 精度: 1 - E 训练误差: 又叫经验误差,是指算法/模型在训练样本上的误差 泛化误差:算法/模型在新样 ...
分类:
其他好文 时间:
2018-07-14 11:46:54
阅读次数:
154
一、岭回归和 LASSO 回归的推导过程 1)岭回归和LASSO回归都是解决模型训练过程中的过拟合问题 具体操作:在原始的损失函数后添加正则项,来尽量的减小模型学习到的 θ 的大小,使得模型的泛化能力更强; 2)比较 Ridge 和 LASSO 名词 Ridge、LASSO:衡量模型正则化; MSE ...
分类:
其他好文 时间:
2018-07-13 20:23:20
阅读次数:
241
代码: 结果: 总结:在仅考虑单一近邻时,训练集上的预测结果十分完美(接近100%)。但随着邻居个数的增多,模型变得更简单(泛化能力越好),训练集精度也随之下降。为求得较好的预测精度和泛化能力,最佳性能在neighbors为6左右! ...
分类:
编程语言 时间:
2018-07-12 13:08:06
阅读次数:
104
# 问题:如果将所有的数据集都作为训练数据集,则对于训练出的模型是否发生了过拟合会不自知,因为过拟合情况下,模型在训练数据集上的误差非常的小,使人觉得模型效果很好,但实际上可能泛化能力不足; # 方案:将数据集分割为训练数据集和测试数据集,通过测试数据集判断模型的好坏——如果通过学习曲线发现,模型在 ...
分类:
其他好文 时间:
2018-07-10 23:40:01
阅读次数:
179
在机器学习中,我们将模型在训练集上的误差称之为训练误差,又称之为经验误差,在新的数据集(比如测试集)上的误差称之为泛化误差,泛化误差也可以说是在模型在总体样本上的误差。对于一个好的模型应该是经验误差约等于泛化误差,也就是经验误差要收敛于泛化误差,根据霍夫丁不等式可知经验误差在一定条件下是可以收敛于泛 ...
分类:
其他好文 时间:
2018-07-08 21:16:06
阅读次数:
197