更多技术干活请关注:阿里云云栖社区 - 汇聚阿里技术精粹 作者:Team Machine Learning,这是一个机器学习爱好者团队,他们热衷于建立一个有希望在数据科学/机器学习方面建立事业的有抱负的年轻毕业生和专业人士的环境。 介绍 机器学习很复杂。你可能会遇到一个令你无从下手的数据集,特别是当 ...
分类:
其他好文 时间:
2017-09-15 13:41:22
阅读次数:
294
构建一个机器学习算法的过程: 评估算法性能 偏斜类(skewed classes):训练集中的大多数实例属于一类,其他类占得很少或没有。 类偏斜的情况下我们就不能单纯使用误差来评判算法的效果。应使用新的评估度量值。 TP:预测为真,实际为真 FP:预测为真,实际为假 FN:预测为假,实际为真 TN: ...
分类:
系统相关 时间:
2017-09-14 18:37:29
阅读次数:
261
文章导读: 1.交叉熵损失函数 1.1 交叉熵损失函数介绍 1.2 在MNIST数字分类上使用交叉熵损失函数 1.3 交叉熵的意义以及来历 1.4 Softmax 2. 过拟合和正则化 2.1 过拟合 2.2 正则化 2.3 为什么正则化可以减轻过拟合问题 2.4 正则化的其它方法 3. 参数初始化 ...
分类:
编程语言 时间:
2017-09-07 18:16:36
阅读次数:
878
1、样本不平衡问题 正样本多余正样本: 1)欠采样,随机抽取负样本去除,使的正负样本比例平衡。缺点是会丢失多数类的一些重要信息,不能够充分利用已有的信息 2)过采样,增加一些正样本,使得正负样本比例接近。最简单的办法是简单复制少数类样本,缺点是可能导致过拟合,没有给少数类增加任何新的信息。改进的方法 ...
分类:
其他好文 时间:
2017-09-01 20:22:55
阅读次数:
170
PRML中首章绪论的模型选择,提到两个方法: 1、交叉验证(Cross-Validation) 2、赤池信息准则(Akaike Information Criterion),简称:AIC。 交叉验证是模型选择的一种方法,若有模型选择问题,就可以用交叉验证。例如做线性回归,你有 10 个变量,就有 ( ...
分类:
其他好文 时间:
2017-08-27 17:02:06
阅读次数:
163
前言 以下内容是个人学习之后的感悟,如果有错误之处,还请多多包涵~ 正则化 一、过拟合 过拟合是一种现象。当我们提高在训练数据上的表现时,在测试数据上反而下降,这就被称为过拟合,或过配。过拟合发生 的本质原因,是由于监督学习问题的不适定:在高中数学我们知道,从n个(线性无关)方程可以解n个变量,解n ...
分类:
其他好文 时间:
2017-08-26 21:31:34
阅读次数:
220
过拟合的定义:过拟合是指模型过度拟合训练集, 学到训练集中过多的噪音或随机波动,导致模型泛化能力差的情况。它表现为在训练集上表现良好,在测试集上表现差。 解决方法:1.重新清洗数据,导致过拟合的一个原因也有可能是数据不纯导致的,如果出现了过拟合就需要我们重新清洗数据。 2.数据集扩增(data au ...
分类:
其他好文 时间:
2017-08-23 23:09:16
阅读次数:
611
http://www.cnblogs.com/Belter/p/6653773.html 注:代价函数(有的地方也叫损失函数,Loss Function)在机器学习中的每一种算法中都很重要,因为训练模型的过程就是优化代价函数的过程,代价函数对每个参数的偏导数就是梯度下降中提到的梯度,防止过拟合时添加 ...
分类:
其他好文 时间:
2017-08-23 20:43:47
阅读次数:
2033
在这部分我们检验多项式层数d和过拟合和欠拟合之间的关系。 1.我们区分是否是偏差或方差导致我们预测错误。 2.大偏差是欠拟合,大方差是过拟合。理想情况下,我们需要在这两者之间找到中庸之道。 当我们增加多项式的D时,训练误差会减小。 同时,交叉验证误差会随着d增加到一个点而减小,然后随着d的增加而增大 ...
分类:
其他好文 时间:
2017-08-19 21:15:42
阅读次数:
122
深度学习采用神经网络解决线性不可分的问题。既然是深度学习,就是包含多个隐层。 觉得知乎大神说了一段很有意思的话: 1.初恋期。相当于深度学习的输入层。别人吸引你,肯定是有很多因素,比如:身高,身材,脸蛋,学历,性格等等,这些都是输入层的参数,对每个人来说权重可能都不一样。 2.热恋期。我们就让它对应 ...
分类:
其他好文 时间:
2017-08-10 10:22:01
阅读次数:
95