今天看到有个同学分享了关于算法学习的思路,觉得对于我来说启发很大,因此决定把他说的一些东西写下来以提醒自己: 首先是算法的产生背景,适用场合(数据规模,特征维度,是否有Online算法,离散/连续特征处理) 原理推导(最大间隔,软间隔,对偶) 求解方法(随机梯度下降,拟牛顿法等优化算法); 优缺点, ...
分类:
编程语言 时间:
2016-08-11 00:39:36
阅读次数:
168
线性回归梯度下降、随机梯度下降与正规方程组的python实现 ...
分类:
其他好文 时间:
2016-07-03 23:08:21
阅读次数:
469
Deep learning中的优化方法
三种常见优化算法:SGD(随机梯度下降),LBFGS(受限的BFGS),CG(共轭梯度法)。
1.SGD(随机梯度下降)
随机梯度下降(Stochastic Gradient Descent, SGD)是随机和优化相结合的产物,是一种很神奇的优化方法,属于梯度下降的一种,适用于大规模问题。
...
分类:
其他好文 时间:
2016-06-24 15:36:58
阅读次数:
629
Geoffery Hinton教授的Neuron Networks for Machine Learning的第六讲介绍了随机梯度下降法(SGD),并且介绍了加快学习速度的动量方法(the momentum method)、针对网络中每一个连接的自适应学习步长(adaptive learning rates for each connection)和RMSProp算法。这几个算法的难度很大,需要反复...
分类:
其他好文 时间:
2016-05-18 18:35:59
阅读次数:
373
问题的引入: 考虑一个典型的有监督机器学习问题,给定m个训练样本S={x(i),y(i)},通过经验风险最小化来得到一组权值w,则现在对于整个训练集待优化目标函数为: 其中为单个训练样本(x(i),y(i))的损失函数,单个样本的损失表示如下: 引入L2正则,即在损失函数中引入,那么最终的损失为: ...
分类:
其他好文 时间:
2016-05-13 08:47:25
阅读次数:
207
机器学习中常会用随机梯度下降法求解一个目标函数 L(Θ)L(\Theta) ,并且常是最小化的一个优化问题:
min L(Θ)min \ L \left(\Theta\right)
我们所追求的是目标函数能够快速收敛或到达一个极小值点。而随机梯度法操作起来也很简单,不过是求偏导数而已,但是为什么是这样呢?为什么算出偏导数就能说下降得最快?初期并不很明了,后来看过一些数学相关的知识才稍微明白了一点...
分类:
其他好文 时间:
2016-05-06 15:07:10
阅读次数:
1119
17.1 大型数据集的学习 17.2 随机梯度下降法 17.3 微型批量梯度下降 17.4 随机梯度下降收敛 17.5 在线学习 17.6 映射化简和数据并行 17.1 大型数据集的学习 17.2 随机梯度下降法 17.3 微型批量梯度下降 17.4 随机梯度下降收敛 17.5 在线学习 17.6 ...
分类:
系统相关 时间:
2016-04-28 00:14:37
阅读次数:
301
随机梯度下降 mini batch 批梯度下降算法 牛顿法 考虑这样一个问题,找到函数值为0的点,对于方程,目标是找到一个,使得,这里是一个实数,牛顿法是按照如下方式进行的: 一维情况下,牛顿方法可以简单理解为:随机选取一个点,然后求出f在该点处的切线L,该切线L的斜率即f在该点处倒数,该切线与x轴 ...
分类:
其他好文 时间:
2016-04-09 16:40:07
阅读次数:
186
// 搜索算法 挨个尝试 1. 梯度下降 批梯度下降, 随机梯度下降 2. 矩阵求导方法 ...
分类:
其他好文 时间:
2016-04-02 22:59:50
阅读次数:
457
1 # -*- coding: cp936 -*- 2 import numpy as np 3 import matplotlib.pyplot as plt 4 5 6 # 构造训练数据 7 x = np.arange(0., 10., 0.2) 8 m = len(x) # 训练数据点数目 9
分类:
编程语言 时间:
2016-02-27 16:29:00
阅读次数:
323