DeepSpeech2中主要讲的几点 1. 网络结构 convolution layers rnn layers one fully connected layer 网络结构的输入是音频信号的频谱特征, 输出的是字母表中的一个个字母.(不同语言的字母表不一样). 训练是采用CTC损失函数. 在推理过 ...
分类:
其他好文 时间:
2018-08-26 11:47:41
阅读次数:
374
梯度下降算法 - 监督学习 损失函数的导数称为梯度,若对损失函数的参数求偏导,则这个偏导数代表着损失函数在该参数下各点的斜率; 目标就是让损失能尽可能的小,希望取到损失函数的最小值,可以通过梯度函数得到损失函数上各点的斜率,然后逐步更新参数从而满足要求的这种方法就是梯度下降! 对于L2损失,参数对应 ...
分类:
其他好文 时间:
2018-08-25 23:28:29
阅读次数:
300
欧式距离: l2范数: l2正则化: l2-loss(也叫平方损失函数): http://openaccess.thecvf.com/content_cvpr_2017/papers/Li_Mimicking_Very_Efficient_CVPR_2017_paper.pdf 总结:l2范数和欧式 ...
分类:
其他好文 时间:
2018-08-24 19:25:51
阅读次数:
439
权重衰减是应对过拟合问题的常用方法。 $L_2$范数正则化 在深度学习中,我们常使用L2范数正则化,也就是在模型原先损失函数基础上添加L2范数惩罚项,从而得到训练所需要最小化的函数。 L2范数惩罚项指的是模型权重参数每个元素的平方和与一个超参数的乘积。如:$w_1$,$w_2$是权重参数,b是偏差参 ...
分类:
Web程序 时间:
2018-08-23 00:38:44
阅读次数:
380
基础公式: ?BA/?A = BT ?ATB/?A = B ?ATBA/?A = 2BA 模型函数: hθ(x) = xθ 无正则化损失函数: J(θ) = 1/2(Xθ-Y)2 令偏导?J(θ)/?θ等于0,得: θ = (XTX)-1XTY 正则化损失函数: J(θ) = 1/2(Xθ-Y)2+ ...
分类:
其他好文 时间:
2018-08-19 15:46:49
阅读次数:
362
为什么可以通过给目标函数增加一个正则项来防止其过拟合?(来使其更圆滑?) 在实现MF矩阵分解算法的时候,也有给损失函数增加一个正则项:推荐系统之矩阵分解及其Python代码实现 【Reference】 1、正则化为什么能防止过拟合 ...
分类:
其他好文 时间:
2018-08-17 17:48:23
阅读次数:
191
首先给出结论:损失函数和代价函数是同一个东西,目标函数是一个与他们相关但更广的概念,对于目标函数来说在有约束条件下的最小化就是损失函数(loss function) 举个例子解释一下:(图片来自Andrew Ng Machine Learning公开课视频) 上面三个图的函数依次为 , , 。我们是 ...
分类:
其他好文 时间:
2018-08-17 11:16:13
阅读次数:
177
线性回归 人工智能是机器学习的父类;机器学习是深度学习的父类 1. 怎么做线性回归? 2. 理解回归 -- 最大似然函数 3. 应用正态分布概率密度函数 -- 对数总似然 4. 推导出损失函数 -- 推导出解析解 5. 代码实现解析解的方式求解 -- 梯度下降法的开始 -- sklearn模块使用线 ...
分类:
其他好文 时间:
2018-08-14 22:51:12
阅读次数:
307
一.交叉熵损失函数形式 现在给出三种交叉熵损失函数的形式,来思考下分别表示的的什么含义。 --式子1 --式子2 --式子3 解释下符号,m为样本的个数,C为类别个数。上面三个式子都可以作为神经网络的损失函数作为训练,那么区别是什么? ■1》式子1,用于那些类别之间互斥(如:一张图片中只能保护猫或者 ...
分类:
其他好文 时间:
2018-08-11 20:04:14
阅读次数:
308
一、逻辑回归简介 如何凸显你是一个对逻辑回归已经非常了解的人呢。一句话概括它!逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法,运用梯度下降来求解参数,来达到将数据二分类的目的。 这里面其实包含了5个点 1:逻辑回归的假设,2:逻辑回归的损失函数,3:逻辑回归的求解方法,4:逻辑回归的目的, ...
分类:
其他好文 时间:
2018-08-07 19:02:00
阅读次数:
266