测试代码(matlab)如下: clear; load E:\dataset\USPS\USPS.mat; % data format: % Xtr n1*dim % Xte n2*dim % Ytr n1*1 % Yte n2*1 % warning: labels must range from ...
分类:
编程语言 时间:
2016-11-18 15:59:11
阅读次数:
614
第一节: 机器学习的基本概念和分类 第二节: 线性回归 批梯度下降(bgd)和随机梯度下降(sgd) 第三节: 过拟合,欠拟合 非参数学习算法:局部加权回归 ...
分类:
其他好文 时间:
2016-11-12 11:30:45
阅读次数:
140
Gradient Descent(Batch Gradient)也就是梯度下降法是一种常用的的寻找局域最小值的方法。其主要思想就是计算当前位置的梯度,取梯度反方向并结合合适步长使其向最小值移动。通过柯西施瓦兹公式可以证明梯度反方向是下降最快的方向。 经典的梯度下降法利用下式更新参量,其中J(θ)是关 ...
分类:
其他好文 时间:
2016-09-21 22:58:43
阅读次数:
277
目录: 1. 前言 2. 正文 2.1 梯度 2.2 梯度下降算法 2.2.1 批量梯度下降算法 2.2.2 随机梯度下降算法 3.参考文献 1.前言 这篇随笔,记录的是个人对于梯度算法的些许理解. 由于充斥着太多关于梯度算法的各种说明软文,所以呢? 本文是从一个实例出发,来逐步使用各种算法进行求解 ...
分类:
编程语言 时间:
2016-09-21 15:57:55
阅读次数:
2989
实现我们分类数字的网络 好,让我们使用随机梯度下降和 MNIST训练数据来写一个程序来学习怎样失败手写数字。 我们也难怪Python (2.7) 来实现。只有 74 行代码!我们需要的第一个东西是 MNIST数据。如果有 github 账号,你可以将这些代码库克隆下来, git clone http ...
分类:
编程语言 时间:
2016-09-09 06:29:28
阅读次数:
1118
http://blog.csdn.net/lilyth_lilyth/article/details/8973972 版权声明:本文为博主原创文章,未经博主允许不得转载。 版权声明:本文为博主原创文章,未经博主允许不得转载。 梯度下降(GD)是最小化风险函数、损失函数的一种常用方法,随机梯度下降和批 ...
分类:
其他好文 时间:
2016-09-04 17:35:38
阅读次数:
177
# -*- coding:utf8 -*- import mathimport matplotlib.pyplot as plt def f(w, x): N = len(w) i = 0 y = 0 while i < N - 1: y += w[i] * x[i] i += 1 y += w[N ...
分类:
编程语言 时间:
2016-09-04 17:20:47
阅读次数:
174
1.交叉熵代价函数 2.正则化方法:L1和L2 regularization、数据集扩增、dropout 3. 数据预处理 4.机器学习算法中如何选取超参数:学习速率、正则项系数、minibatch size 5.随机梯度下降(Stochastic gradient descent)和 批量梯度下降 ...
分类:
其他好文 时间:
2016-08-22 21:41:51
阅读次数:
155
比对梯度下降和随机梯度下降: 梯度下降:每一次迭代耗时长,在大数据集上处理速度慢,对参数敏感性适中 随机梯度下降:每一次迭代耗时短,在大数据集上处理速度较快,但对参数非常敏感 随机梯度下降能更快地达到较大的对数似然值,但噪声更大 步长太小,收敛速度太慢;步长较大,震荡较大;步长异常大,不收敛 ...
分类:
其他好文 时间:
2016-08-15 12:46:22
阅读次数:
116
一、参数更新策略 1.SGD 也就是随机梯度下降,最简单的更新形式是沿着负梯度方向改变参数(因为梯度指向的是上升方向,但是我们通常希望最小化损失函数)。假设有一个参数向量x及其梯度dx,那么最简单的更新的形式是: x += - learning_rate * dx 其中learning_rate是一 ...
分类:
其他好文 时间:
2016-08-14 14:26:50
阅读次数:
683