先开个标题,以后慢慢填充。 k近邻算法(knn)属于监督学习 一、 三个关键点:1、k的取值,当k值较小时,选取点较少,相当于会有在较小的范围内进行学习预测,学习误差会减小,但是估计误差会增大,因为训练样本中存在噪声,选取过小的区域,噪声干扰的权重会较大,因为影响泛化能力,k减小意味整体模型复杂,容 ...
分类:
其他好文 时间:
2018-03-09 11:13:38
阅读次数:
161
在机器学习中,我们非常关心模型的预测能力,即模型在新数据上的表现,而不希望过拟合现象的的发生,我们通常使用正则化(regularization)技术来防止过拟合情况。正则化是机器学习中通过显式的控制模型复杂度来避免模型过拟合、确保泛化能力的一种有效方式。如果将模型原始的假设空间比作“天空”,那么天空 ...
分类:
其他好文 时间:
2018-02-21 18:14:58
阅读次数:
362
一、前述 L1正则,L2正则的出现原因是为了推广模型的泛化能力。相当于一个惩罚系数。 二、原理 L1正则:Lasso Regression L2正则:Ridge Regression 总结: 经验值 MSE前系数为1 ,L1 , L2正则前面系数一般为0.4~0.5 更看重的是准确性。 L2正则会整 ...
分类:
其他好文 时间:
2018-01-23 18:26:26
阅读次数:
228
1使用BN进行数据归一化的原因 a) 神经网络学习过程本质就是为了学习数据分布,一旦训练数据与测试数据的分布不同,那么网络的泛化能力也大大降低; b) 另外一方面,一旦每批训练数据的分布各不相同(batch 梯度下降),那么网络就要在每次迭代都去学习适应不同的分布,这样将会大大降低网络的训练速度. ...
分类:
Web程序 时间:
2018-01-18 13:35:20
阅读次数:
186
对学习器的泛化性能的评估,不仅需要有效可行的试验评估方法,还需要有模型泛化能力的评价标准,这就是性能度量(performance measure),性能度量反映了任务需求,在对比不同模型的能力时,使用不同的性能度量往往会导致不同的评判结果,这意味着模型的“好坏”是相对的,什么样的模型是好的,不仅取决 ...
分类:
其他好文 时间:
2018-01-15 14:47:19
阅读次数:
944
SVM模型有两个非常重要的参数C与gamma。其中 C是惩罚系数,即对误差的宽容度。c越高,说明越不能容忍出现误差,容易过拟合。C越小,容易欠拟合。C过大或过小,泛化能力变差 gamma是选择RBF函数作为kernel后,该函数自带的一个参数。隐含地决定了数据映射到新的特征空间后的分布,gamma越 ...
分类:
其他好文 时间:
2017-10-13 23:40:09
阅读次数:
292
支持向量机 1 概念 支持向量机是一种分类方法,通过寻求结构化、风险最小,来提高学习机泛化能力,实现经验风险和置信范围的最小化,从而达到在统计样本量较小的情况下,亦能获得良好统计规律的目的。通俗来讲,他是一种二类分类模型,基本模型定义为特征空间上的间隔最大的线性分类器,即支持向量机的学习策略便是间隔... ...
分类:
其他好文 时间:
2017-09-30 13:10:47
阅读次数:
196
泛化能力差和过拟合 引起过拟合的原因: 1)过度VC维(模型复杂度高) 2)噪声 3)有限的样本数量N 一个具体实验来看模型复杂度/确定性噪声、随机噪声、样本数量对过拟合的影响 关于确定性噪声 尽量避免过拟合: 1)从简单模型开始:降低模型复杂度 2)data cleaning/data pruni ...
分类:
其他好文 时间:
2017-09-27 00:42:46
阅读次数:
146
接下来几天,将把自己最近读的关于图片分类的经典网络模型论文整理一遍。大概做个摘要。这些论文都是在imagenet上1.2 million数据训练出来的。 由于从这些预训练的网络训练的deep feature有良好的泛化能力,可以应用到其他不同的CV问题,而且比传统的hand-craft featur ...
分类:
其他好文 时间:
2017-09-03 14:53:06
阅读次数:
790
过拟合的定义:过拟合是指模型过度拟合训练集, 学到训练集中过多的噪音或随机波动,导致模型泛化能力差的情况。它表现为在训练集上表现良好,在测试集上表现差。 解决方法:1.重新清洗数据,导致过拟合的一个原因也有可能是数据不纯导致的,如果出现了过拟合就需要我们重新清洗数据。 2.数据集扩增(data au ...
分类:
其他好文 时间:
2017-08-23 23:09:16
阅读次数:
611