BP算法 基本思想:学习过程由信号的正向传播和误差的反向传播两个过程组成。(这一步体现在propagate()函数) 数学工具:微积分的链式求导法则。(这一步体现在propagate()函数中第34行) 求解最小化成本函数(cost function):梯度下降法。(这一步体现在optimize() ...
分类:
其他好文 时间:
2018-04-01 22:00:42
阅读次数:
219
声明:本文参考《 大数据:Spark mlib(三) GradientDescent梯度下降算法之Spark实现》 1. 什么是梯度下降? 梯度下降法(英语:Gradient descent)是一个一阶最优化算法,通常也称为最速下降法。 要使用梯度下降法找到一个函数的局部极小值,必须向函数上当前点对 ...
分类:
编程语言 时间:
2018-03-31 14:45:03
阅读次数:
176
逻辑回归的本质是最大似然估计 逻辑回归的输出是 分别表示取1和取0的后验概率。将上面两式联系起来得到 取似然函数 再取对数 最大似然估计就是求使似然函数最大的参数θ。此时可以使用梯度上升法优化代价函数 取负号和求平均后得到J函数 此时就是求使J函数最小的参数θ。接下来用梯度下降法优化。 ...
分类:
其他好文 时间:
2018-03-25 12:11:25
阅读次数:
686
逻辑回归 针对二分类问题,若X是特征集合,Y是类别标签(0,1),假设Y的取值服从伯努利分布,即 $P(Y=0|X)=1 p$ $P(Y=1|X)=p$ 再假设p是可以由已知的特征集合X预测的,令(式2) $$p=\frac{1}{1+e^{ {\theta}^{T} x}}=h_{\theta}( ...
分类:
其他好文 时间:
2018-03-19 13:23:12
阅读次数:
159
梯度下降法 不是一个机器学习算法 是一种基于搜索的最优化方法 作用:最小化一个损失函数 梯度上升法:最大化一个效用函数 举个栗子 直线方程:导数代表斜率 曲线方程:导数代表切线斜率 导数可以代表方向,对应J增大的方向。对于蓝点,斜率为负,西塔减少时J增加,西塔增加时J减少,我们想让J减小,对应导数的 ...
分类:
其他好文 时间:
2018-03-04 18:04:02
阅读次数:
214
正如之前所述,梯度矢量具有方向和大小。梯度下降法算法用梯度乘以一个称为学习速率(有时也称为步长)的标量,以确定下一个点的位置。例如,如果梯度大小为 2.5,学习速率为 0.01,则梯度下降法算法会选择距离前一个点 0.025 的位置作为下一个点。 超参数是编程人员在机器学习算法中用于调整的旋钮。大多 ...
分类:
其他好文 时间:
2018-03-02 22:13:54
阅读次数:
169
迭代方法图(图 1)包含一个标题为“计算参数更新”的华而不实的绿框。现在,我们将用更实质的方法代替这种华而不实的算法。 假设我们有时间和计算资源来计算 w1 的所有可能值的损失。对于我们一直在研究的回归问题,所产生的损失与 w1 的图形始终是凸形。换言之,图形始终是碗状图,如下所示: 图 2. 回归 ...
分类:
其他好文 时间:
2018-03-02 22:13:14
阅读次数:
237
在梯度下降法中,批量指的是用于在单次迭代中计算梯度的样本总数。到目前为止,我们一直假定批量是指整个数据集。就 Google 的规模而言,数据集通常包含数十亿甚至数千亿个样本。此外,Google 数据集通常包含海量特征。因此,一个批量可能相当巨大。如果是超大批量,则单次迭代就可能要花费很长时间进行计算 ...
分类:
其他好文 时间:
2018-03-02 22:08:04
阅读次数:
131
正规方程: 对于上面的线性回归算法我们都是采用的梯度下降法,使得损失函数最小,而对于线性回归算法还有另外一种使得损失函数最小的方法,那就是正规方程。 正规方程式通过求解下面的方程来找出使得代价函数最小的参数: ?J(θj))?θj=0 假设我们的训练集特征矩阵为X(包含x0=1)并且训练集结果为向量 ...
分类:
其他好文 时间:
2018-02-28 17:31:06
阅读次数:
203
Hulu优秀的作者们每天和公式抗争,只为提升你们的技能,感动的话就把文章看完,然后哭一个吧。 今天的内容是 【随机梯度下降法】 场景描述 深度学习得以在近几年迅速占领工业界和学术界的高地,重要原因之一是数据量的爆炸式增长。如下图所示,随着数据量的增长,传统机器学习算法的性能会进入平台期,而深度学习算 ...
分类:
其他好文 时间:
2018-02-27 23:40:05
阅读次数:
401