最近学习了一种叫做 Factorization Machines(简称 FM)的通用算法,它可对任意的实值向量进行预测。其主要优点包括: 1) 可用于高度稀疏数据场景; 2) 具有线性的计算复杂度。本文将对 FM 框架进行简单介绍,并对其训练算法 — 随机梯度下降(SGD)法和交替最小二乘(ALS)法进行详细推导。...
分类:
编程语言 时间:
2014-10-28 12:23:27
阅读次数:
342
最近学习了一种叫做 Factorization Machines(简称 FM)的通用算法,它可对任意的实值向量进行预测。其主要优点包括: 1) 可用于高度稀疏数据场景; 2) 具有线性的计算复杂度。本文将对 FM 框架进行简单介绍,并对其训练算法 — 随机梯度下降(SGD)法和交替最小二乘(ALS)法进行详细推导。...
分类:
系统相关 时间:
2014-10-28 12:22:05
阅读次数:
335
昨天学习完了Ng的第二课,总结如下:过拟合;欠拟合;参数学习算法;非参数学习算法局部加权回归KD tree最小二乘中心极限定律感知器算法sigmod函数梯度下降/梯度上升二元分类logistic回归
分类:
其他好文 时间:
2014-10-19 17:03:42
阅读次数:
302
回归与梯度下降:回归在数学上来说是给定一个点集,能够用一条曲线去拟合之,如果这个曲线是一条直线,那就被称为线性回归,如果曲线是一条二次曲线,就被称为二次回归,回归还有很多的变种,如locally weighted回归,logistic回归,等等,这个将在后面去讲。用一个很简单的例子来说明回归,这个例...
分类:
其他好文 时间:
2014-10-16 00:32:31
阅读次数:
401
梯度下降(GD)是最小化风险函数、损失函数的一种常用方法,随机梯度下降和批量梯度下降是两种迭代求解思路,下面从公式和实现的角度对两者进行分析,如有哪个方面写的不对,希望网友纠正。下面的h(x)是要拟合的函数,J(theta)损失函数,theta是参数,要迭代求解的值,theta求解出来了那最终要拟合...
分类:
其他好文 时间:
2014-10-16 00:17:11
阅读次数:
415
Logistic回归的理论内容上篇文章已经讲述过,在求解参数时可以用牛顿迭代,可以发现这种方法貌似太复杂,今天我们介绍另一种方法,叫梯度下降。当然求最小值就是梯度下降,而求最大值相对就是梯度上升。由于,如果,那么得到现在我们要找一组,使得所有的最接近,设现在我们要找一组,使得最小。这就是今天要介绍的...
分类:
编程语言 时间:
2014-10-15 22:52:11
阅读次数:
960
昨天开始看Ng教授的机器学习课,发现果然是不错的课程,一口气看到第二课。 第一课 没有什么新知识,就是机器学习的概况吧。 第二课 出现了一些听不太懂的概念。其实这堂课主要就讲了一个算法,梯度下降算法。到了教授推导公式的时候感觉有点蒙,不过后来仔细想想,也大概理解了,这个算法并没有...
分类:
编程语言 时间:
2014-10-15 21:56:21
阅读次数:
179
样本个数m,x为n维向量。h_theta(x) = theta^t * x梯度下降需要把m个样本全部带入计算,迭代一次计算量为m*n^2随机梯度下降每次只使用一个样本,迭代一次计算量为n^2,当m很大的时候,随机梯度下降迭代一次的速度要远高于梯度下降
分类:
其他好文 时间:
2014-10-15 10:53:00
阅读次数:
180
梯度下降法的原理,本文不再描述,请参阅其它资料。梯度下降法函数function [k ender]=steepest(f,x,e),需要三个参数f、x和e,其中f为目标函数,x为初始点,e为终止误差。输出也为两个参数,k表示迭代的次数,ender表示找到的最低点。steepest.m:functio...
分类:
其他好文 时间:
2014-10-15 02:31:49
阅读次数:
399