码迷,mamicode.com
首页 >  
搜索关键字:随机梯度    ( 219个结果
线性回归与梯度下降算法
线性回归与梯度下降算法作者:上品物语知识点:线性回归概念梯度下降算法 l 批量梯度下降算法 l 随机梯度下降算法 l 算法收敛判断方法1.1 线性回归在统计学中,线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行...
分类:其他好文   时间:2014-09-02 19:26:35    阅读次数:655
随机梯度下降(SGD)
关于什么是梯度下降,请看我之前发的一个博文:http://blog.csdn.net/lilyth_lilyth/article/details/8973972 梯度下降能帮助我们找到局部最优值,取得很小的损失,但是在数据量达到数十万时,迭代次数高,运算速度慢,十分不适合。这时候可以考虑使用随机梯度下降算法。 所谓随机梯度下降是   每次用 每个样本的损失函数(即样本数为1时的损失函数)对th...
分类:其他好文   时间:2014-07-23 13:39:56    阅读次数:256
一种适合于大数据的并行坐标下降法
在机器学习中,模型的训练是一个很重要的过程,它通常是对一个目标函数进行优化,从而获取模型的参数,比较常见的优化算法包括梯度下降法、牛顿法与拟牛顿法等。但在大数据的背景下,尤其对于并行实现来说,优化算法通常是越简单越好,如坐标下降法(CD)和随机梯度下降法(SCG)就比较受欢迎。本文是阅读完论文 Distributed Coordinate Descent Method for Learning with Big Data 的一则笔记,主要介绍算法 Hydra (一种分布式坐标下降法)的算法框架、收敛性理论、...
分类:其他好文   时间:2014-06-29 07:38:26    阅读次数:350
一种并行随机梯度下降法
Martin A. Zinkevich 等人(Yahoo!Lab)合作的论文 Parallelized Stochastic Gradient Descent 中给出了一种适合于 MapReduce 的并行随机梯度下降法,并给出了相应的收敛性分析。这里忽略理论部分,根据自己的理解给出文中所提并行随机...
分类:其他好文   时间:2014-06-25 22:06:05    阅读次数:417
一种并行随机梯度下降法
Martin A. Zinkevich 等人(Yahoo!Lab)合作的论文 Parallelized Stochastic Gradient Descent 中给出了一种适合于 MapReduce 的并行随机梯度下降法,并给出了相应的收敛性分析。这里忽略理论部分,根据自己的理解给出文中所提并行随机梯度下降法的描述。...
分类:其他好文   时间:2014-06-24 22:53:45    阅读次数:261
基于矩阵分解的推荐系统应用
使用MATLAB尝试了随机梯度下降的矩阵分解方法,实现了一个比较简单的推荐系统的原理。常用推荐系统的方法有协同过滤, 基于物品内容过滤等等。这次是用的矩阵分解模型属于协同过滤的一种方法,大致原理是通过一定数量的因子来描述各个用户的喜好和各个物品的属性。通过随机梯度下降法分解后得到两个矩阵,一个是用....
分类:其他好文   时间:2014-06-21 07:17:05    阅读次数:346
一种利用 Cumulative Penalty 训练 L1 正则 Log-linear 模型的随机梯度下降法
Log-Linear 模型(也叫做最大熵模型)是 NLP 领域中使用最为广泛的模型之一,其训练常采用最大似然准则,且为防止过拟合,往往在目标函数中加入(可以产生稀疏性的) L1 正则。但对于这种带 L1 正则的最大熵模型,直接采用标准的随机梯度下降法(SGD)会出现效率不高和难以真正产生稀疏性等问题。本文为阅读论文 Stochastic Gradient Descent Training for L1-regularized Log-linear Models with Cumulative Penalty...
分类:其他好文   时间:2014-06-19 12:01:04    阅读次数:286
一种并行随机梯度下降法
本文是读完 Jeffrey Dean, Greg S. Corrado 等人的文章 Large Scale Distributed Deep Networks (2012) 后的一则读书笔记,重点介绍在 Google 的软件框架 DistBelief 下设计的一种用来训练大规模深度神经网络的随机梯度下降法 — Downpour SGD,该方法通过分布式地部署多个模型副本和一个“参数服务器”,同时实现了模型并行和数据并行,且对机器失效问题具有很好的容错性。结合 Adagrad 自适应学习率使用,对非凸优化问题...
分类:其他好文   时间:2014-06-18 00:55:39    阅读次数:433
(原创)Stanford Machine Learning (by Andrew NG) --- (week 10) Large Scale Machine Learning & Application Example
本栏目来源于Andrew NG老师讲解的Machine Learning课程,主要介绍大规模机器学习以及其应用。包括随机梯度下降法、维批量梯度下降法、梯度下降法的收敛、在线学习、map reduce以及应用实例:photo OCR。课程地址为:https://www.coursera.org/cou...
分类:移动开发   时间:2014-05-18 00:36:57    阅读次数:452
219条   上一页 1 ... 20 21 22
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!