码迷,mamicode.com
首页 > 其他好文 > 详细

梯度下降法

时间:2020-07-20 22:40:33      阅读:75      评论:0      收藏:0      [点我收藏+]

标签:梯度下降法   https   训练   数通   算法   loading   稳定性   学习   噪声   

梯度下降法主要分为三种,

  • 梯度下降法
  • 随机梯度下降
  • 小批量梯度下降

下面分别来介绍一下,这样更加有助于理解它们之间的联系。

梯度下降法

梯度下降使用整个训练数据集来计算梯度,因此它有时也被称为批量梯度下降

下面就以均方误差讲解一下,假设损失函数如下:

技术图片

其中 技术图片 是预测值, 技术图片 是真实值,那么要最小化上面损失 技术图片 ,需要对每个参数 技术图片 运用梯度下降法:

技术图片

其中 技术图片 是损失函数对参数 技术图片 的偏导数、 技术图片 是学习率,也是每一步更新的步长。

随机梯度下降法

在机器学习\深度学习中,目标函数的损失函数通常取各个样本损失函数的平均,那么假设目标函数为:

技术图片

其中 技术图片 是第 技术图片 个样本的目标函数,那么目标函数在在 技术图片 处的梯度为:

技术图片

如果使用梯度下降法(批量梯度下降法),那么每次迭代过程中都要对 技术图片个样本进行求梯度,所以开销非常大,随机梯度下降的思想就是随机采样一个样本 技术图片来更新参数,那么计算开销就从 技术图片 下降到 技术图片

小批量梯度下降法

随机梯度下降虽然提高了计算效率,降低了计算开销,但是由于每次迭代只随机选择一个样本,因此随机性比较大,所以下降过程中非常曲折(图片来自《动手学深度学习》),

技术图片技术图片

所以,样本的随机性会带来很多噪声,我们可以选取一定数目的样本组成一个小批量样本,然后用这个小批量更新梯度,这样不仅可以减少计算成本,还可以提高算法稳定性。小批量梯度下降的开销为 技术图片 其中 技术图片是批量大小。

*该怎么选择?*

当数据量不大的时候可以选择批量梯度下降法,当数据量很大时可以选择小批量梯度下降法。

参考链接:

https://www.zhihu.com/question/264189719

梯度下降法

标签:梯度下降法   https   训练   数通   算法   loading   稳定性   学习   噪声   

原文地址:https://www.cnblogs.com/jimlau/p/13347165.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!