一、weight decay(权值衰减)的使用既不是为了提高你所说的收敛精确度也不是为了提高收敛速度,其最终目的是防止过拟合。在损失函数中,weight decay是放在正则项(regularization)前面的一个系数,正则项一般指示模型的复杂度,所以weight decay的作用是调节模型复杂 ...
分类:
其他好文 时间:
2017-12-07 13:26:09
阅读次数:
125
损失函数(loss function)是用来估量你模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。损失函数是经验风险函数的核心部分,也是结构风险函数重要组成部分。模型的结构风险函数包括了经验风险项和正则项,通常可 ...
分类:
其他好文 时间:
2017-12-02 13:05:47
阅读次数:
197
1损失函数和代价函数的区别: 损失函数(Loss function):指单个训练样本进行预测的结果与实际结果的误差。 代价函数(Cost function):整个训练集,所有样本误差总和(所有损失函数总和)的平均值。(这一步体现在propagate()函数中的第32行) ...
分类:
其他好文 时间:
2017-11-24 22:45:32
阅读次数:
221
本博客内容来自 Stanford University CS231N 2017 Lecture 3 - Loss Functions and Optimization 课程官网:http://cs231n.stanford.edu/syllabus.html 从课程官网可以查询到更详细的信息,查看视 ...
分类:
其他好文 时间:
2017-11-13 00:21:35
阅读次数:
520
参考网址: 1. GBDT(MART) 迭代决策树入门教程 | 简介 2. Wikipedia: Gradient boosting 一般Gradient Boosting: 输入:训练集$\{(x_{i}, y_{i})\}_{i=1}^{n}$,可导损失函数$L(y, F(x))$,迭代次数$M ...
分类:
其他好文 时间:
2017-11-06 21:24:12
阅读次数:
191
一、autograd自动微分 autograd是专门为了BP算法设计的,所以这autograd只对输出值为标量的有用,因为损失函数的输出是一个标量。如果y是一个向量,那么backward()函数就会失效。不知道BP算法是什么的同学,估计也不知道什么是深度学习,建议先看Zen君提供的教材。 二、aut ...
分类:
其他好文 时间:
2017-10-30 16:58:57
阅读次数:
193
梯度方向:上升的方向 梯度下降:沿着梯度的反方向下降,来最小化损失函数,也就是沿着梯度的反方向 泰勒级数:展开式通项 贝叶斯公式:后验概率=先验概率*条件概率 特征值与特征向量:特征值不同,特征向量线性无关 PCA:降维的同时尽可能的保留原始的信息 过程 1)先求解协方差矩阵 2)求解协方差矩阵的特 ...
分类:
其他好文 时间:
2017-10-22 22:13:15
阅读次数:
144
这节课主要是讲了些基本的numpy,scipy和线性的分类器(图像上面,比如knn),还讲了下一些损失函数 一:numpy,scipy和线性的分类器(图像上面,比如knn)主要讲代码 二:损失函数:主要是两大类 cost function、loss function、 objective(客观度) ...
分类:
其他好文 时间:
2017-10-22 21:20:33
阅读次数:
209
http://www.jianshu.com/p/75f7e60dae95 作者:陈迪豪 来源:CSDNhttp://dataunion.org/26447.html 交叉熵介绍 交叉熵(Cross Entropy)是Loss函数的一种(也称为损失函数或代价函数),用于描述模型预测值与真实值的差距大 ...
分类:
编程语言 时间:
2017-10-20 18:43:50
阅读次数:
192
BP算法是神经网络的基础,也是最重要的部分。由于误差反向传播的过程中,可能会出现梯度消失或者爆炸,所以需要调整损失函数。在LSTM中,通过sigmoid来实现三个门来解决记忆问题,用tensorflow实现的过程中,需要进行梯度修剪操作,以防止梯度爆炸。RNN的BPTT算法同样存在着这样的问题,所以 ...
分类:
编程语言 时间:
2017-10-19 16:32:34
阅读次数:
681