一、基本术语 一个示例=一个样本 属性=特征 属性值-属性空间 一个特征向量,即一个示例 训练集vs验证集vs测试集 假设:模型对应了关于数据的某种潜在规律 学习的任务:分类、回归、聚类 泛化能力:模型适用于新样本的能力 独立同分布:假设全体样本服从一个未知的分布,每个样本都是独立地从这个分布上采样 ...
分类:
其他好文 时间:
2017-08-10 01:32:52
阅读次数:
174
正则化方法:防止过拟合,提高泛化能力 在训练数据不够多时,或者overtraining时,常常会导致overfitting(过拟合)。其直观的表现如下图所示,随着训练过程的进行,模型复杂度增加,在training data上的error渐渐减小,但是在验证集上的error却反而渐渐增大——因为训练出 ...
分类:
其他好文 时间:
2017-07-29 10:14:15
阅读次数:
162
上一节,我们介绍利用文本和知识库融合训练词向量的方法,如何更好的融合这些结构化知识呢?使得训练得到的词向量更具有泛化能力,能有效识别同义词反义词,又能学习到上下文信息还有不同级别的语义信息。 基于上述目标,我们尝试基于CBOW模型,将知识库中抽取的知识融合共同训练,提出LRWE模型。模型的结构图如下 ...
分类:
其他好文 时间:
2017-07-04 20:13:31
阅读次数:
1543
?? 内容概要¶ 训练集/測试集切割用于模型验证的缺点K折交叉验证是怎样克服之前的不足交叉验证怎样用于选择调节參数、选择模型、选择特征改善交叉验证 1. 模型验证回想¶ 进行模型验证的一个重要目的是要选出一个最合适的模型,对于监督学习而言,我们希望模型对于未知数据的泛化能力强,所以就须要模型验证这一 ...
分类:
其他好文 时间:
2017-06-23 14:14:54
阅读次数:
1121
正则化方法:防止过拟合,提高泛化能力 在训练数据不够多时,或者overtraining时,常常会导致overfitting(过拟合)。其直观的表现如下图所示,随着训练过程的进行,模型复杂度增加,在training data上的error渐渐减小,但是在验证集上的error却反而渐渐增大——因为训练出 ...
分类:
其他好文 时间:
2017-05-31 10:11:34
阅读次数:
166
简介 剪枝(pruning)是指通过移除决策树的某一部分以减少树的大小,被移除的部分的分类能力比较弱,从而降低最终分类器的复杂度,提高泛化能力。 从上一篇文章中,我们知道决策树是通过递归算法产生,然而这可能会出现过拟合(overfitting),也就是,一味的拟合已知的训练数据集,可能会导致分类器过 ...
分类:
其他好文 时间:
2017-05-26 13:26:26
阅读次数:
281
一:引言 因为在机器学习的一些模型中,如果模型的参数太多,而训练样本又太少的话,这样训练出来的模型很容易产生过拟合现象。在训练bp网络时经常遇到的一个问题,过拟合指的是模型在训练数据上损失函数比较小,预测准确率较高(如果通过画图来表示的话,就是拟合曲线比较尖,不平滑,泛化能力不好),但是在测试数据上 ...
分类:
其他好文 时间:
2017-05-08 15:59:51
阅读次数:
332
感知机可以说是最古老的分类方法之一了,在1957年就已经提出。今天看来它的分类模型在大多数时候泛化能力不强,但是它的原理却值得好好研究。因为研究透了感知机模型,学习支持向量机的话会降低不少难度。同时如果研究透了感知机模型,再学习神经网络,深度学习,也是一个很好的起点。这里对感知机的原理做一个小结。 ...
分类:
其他好文 时间:
2017-04-05 22:07:33
阅读次数:
272
作者:Edwin Jarvis 特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。 特征选择主要有两个功能: 减少特征数量、降维,使模型泛化能力更强,减少过拟合 增强对特征和特征值 ...
分类:
其他好文 时间:
2016-12-23 16:27:29
阅读次数:
1248
首先说交叉验证。交叉验证(Cross validation)是一种评估统计分析、机器学习算法对独立于训练数据的数据集的泛化能力(generalize), 能够避免过拟合问题。交叉验证一般要尽量满足:1)训练集的比例要足够多,一般大于一半2)训练集和测试集要均匀抽样 交叉验证主要分成以下几类:1)Do ...
分类:
其他好文 时间:
2016-12-23 14:25:18
阅读次数:
220