数据清洗 不可信样本丢弃 缺省值极多的字段考虑不用 数据采样 下/上采样 保证样本均衡 特征处理 数值型 类别型 时间型 文本型 统计型 组合特征 特征选择 过滤型 sklearn.feature_selection.SelectKBest 包裹型 sklearn.feature_selection ...
分类:
其他好文 时间:
2017-02-17 00:01:57
阅读次数:
456
快疯了,也存在过拟合问题,做个笔记,以后慢慢完善 ...
分类:
Web程序 时间:
2017-01-22 19:21:53
阅读次数:
375
继续上节内容介绍学习理论,介绍模型选择算法,大纲内容为: 交叉验证 特征选择 回顾上节的偏差方差权衡现象,若选择过于简单的模型,偏差过高,可能会导致欠拟合;若选择过于复杂的模型,方差过高,可能会导致过拟合,同样模型的一般适用性不好。 模型复杂度:多项式的次数或参数的个数。 (1)尝试选择多项式的次数 ...
分类:
其他好文 时间:
2017-01-12 22:29:19
阅读次数:
246
2.模型评估与选择
2.1经验误差和过拟合
不同学习算法及其不同参数产生的不同模型,涉及到模型选择的问题,关系到两个指标性,就是经验误差和过拟合。
1)经验误差
错误率(errorrate):分类错误...
分类:
其他好文 时间:
2017-01-10 12:08:35
阅读次数:
1458
作者:Edwin Jarvis 特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。 特征选择主要有两个功能: 减少特征数量、降维,使模型泛化能力更强,减少过拟合 增强对特征和特征值 ...
分类:
其他好文 时间:
2016-12-23 16:27:29
阅读次数:
1248
首先说交叉验证。交叉验证(Cross validation)是一种评估统计分析、机器学习算法对独立于训练数据的数据集的泛化能力(generalize), 能够避免过拟合问题。交叉验证一般要尽量满足:1)训练集的比例要足够多,一般大于一半2)训练集和测试集要均匀抽样 交叉验证主要分成以下几类:1)Do ...
分类:
其他好文 时间:
2016-12-23 14:25:18
阅读次数:
220
1.常见问题 1.1 什么是偏差与方差? 1.2 为什么会产生过拟合,有哪些方法可以预防或克服过拟合? 2.模型选择 3.特征选择 4.特征工程与数据预处理 ...
分类:
其他好文 时间:
2016-12-06 13:33:33
阅读次数:
675
在图像的深度学习中,为了丰富图像训练集,更好的提取图像特征,泛化模型(防止模型过拟合),一般都会对数据图像进行数据增强, 数据增强,常用的方式,就是旋转图像,剪切图像,改变图像色差,扭曲图像特征,改变图像尺寸大小,增强图像噪音(一般使用高斯噪音,盐椒噪音)等. 但是需要注意,不要加入其他图像轮廓的噪 ...
分类:
其他好文 时间:
2016-12-01 03:12:10
阅读次数:
1152
利用MSER提取候选区域,提出新的文字特征训练SVM的背景,字符,字符串三类分类器,再形成文本线,并用图割方法对检测结果进行调整 ...
分类:
其他好文 时间:
2016-11-26 02:42:35
阅读次数:
282