梯度下降是迭代法的一种,可以用于求解最小二乘问题(线性和非线性都可以)。在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(GradientDescent)是最常采用的方法之一,另一种常用的方法是最小二乘法。在求解损失函数的最小值时,可以通过梯度下降法来一步步的迭代求解,得到最小化的损失函数和模型参数值。反过来,如果我们需要求解损失函数的最大值,这时就需要用梯度上升法来迭代了。在机器学习中
分类:
编程语言 时间:
2018-12-12 17:38:25
阅读次数:
180
2018 年“双 11”的交易额又达到了一个历史新高度 2135 亿。相比十年前,我们的交易额增长了 360 多倍,而交易峰值增长了 1200 多倍。相对应的,系统数呈现爆发式增长。系统在支撑“双 11”过程中的复杂度和难度呈现指数级形式上升趋势。
分类:
其他好文 时间:
2018-12-11 19:49:40
阅读次数:
197
随机梯度下降批尺寸有什么影响呢??? 当数据量足够大的时候可以适当的减小batch_size,由于数据量太大,内存不够。但盲目减少会导致无法收敛,batch_size=1时为在线学习, 也是标准的SGD,这样学习,如果数据量不大,noise数据存在时,模型容易被noise带偏,如果数据量足够大,no ...
分类:
其他好文 时间:
2018-12-08 21:10:27
阅读次数:
315
1.梯度下降法(Gradient Descent) 梯度下降法是最基本的一类优化器,目前主要分为三种梯度下降法: 标准梯度下降法(GD, Gradient Descent) 随机梯度下降法(SGD, Stochastic Gradient Descent) 批量梯度下降法(BGD, Batch Gr ...
分类:
其他好文 时间:
2018-12-07 21:17:40
阅读次数:
733
从最简单的线性回归来说,小批量随机梯度下降的时候,X,y 从迭代器中取出,也是bach_size大小的数据集,那么网络的计算,同样也是小批量的。 即代码 l = loss(net(X),y) 包含了,小批量数据集,每一个数据丢到网络中,计算出返回值以后,和真实值得损失。 ...
分类:
其他好文 时间:
2018-12-01 18:40:19
阅读次数:
215
TensorFlow 是一个采用数据流图(data flow graphs),用于数值计算的开源软件库。节点(Nodes)在图中表示数学操作,图中的线(edges)则表示在节点间相互联系的多维数据数组,即张量(tensor)。它灵活的架构让你可以在多种平台上展开计算,例如台式计算机中的一个或多个CP ...
分类:
其他好文 时间:
2018-11-25 20:34:25
阅读次数:
190
随机梯度下降算法训练时,使用滑动平均模型可以提高模型健壮性。在Tensorflow中提供了tf.train.ExponentialMovingAverage来实现滑动平均模型。在初始化ExponentialMovingAverage时,需要提供一个衰减率。控制模型更新速度,它对每个变量会维护一个影子变量,这个影子变量的初始值就是相应变量的初始值,而每次运行变量更新时,影子变量的值会更新为:$$sh
分类:
其他好文 时间:
2018-11-22 10:42:35
阅读次数:
299
随机梯度下降分类器并不是一个独立的算法,而是一系列利用随机梯度下降求解参数的算法的集合。 from sklearn.linear_model import SGDClassifier clf = SGDClassifier(loss="hinge", penalty="l2") loss funct ...
分类:
其他好文 时间:
2018-11-16 22:35:16
阅读次数:
258
感知机: 1.感知机关键在于损失函数最小化 2.当初值和分类点选择顺序不同时,算得的结果不同。 3.当线性不可分时,感知机算法不收敛,迭代结果震荡。 4.感知机和随机梯度下降。 5.pocket algorithm 口袋算法:每次梯度下降时和“口袋”比较,将损失更小的放到“口袋”里。 6.voted ...
分类:
其他好文 时间:
2018-11-09 16:12:10
阅读次数:
169
location 对输入图像定位,找到盒子坐标(x,y,w,h);Clssificaion and Location的最后一层是的特征做两件事,一个是分类,一个是定位。 训练时使用已有的模型,也就是最后一层全联接之前所有的参数都用已有模型的,然后在这个基础上进行微调(fine tune),使其向着想 ...
分类:
其他好文 时间:
2018-11-08 23:24:07
阅读次数:
446