多元线性回归是最简单的机器学习模型,通过给定的训练数据集,拟合出一个线性模型,进而对新数据做出预测。 对应的模型如下: n: 特征数量。 一般选取残差平方和最小化作为损失函数,对应为: M:训练样本数量。 通过最小化代价损失函数,来求得 值,一般优化的方法有两种,第一是梯度下降算法(Gradient...
分类:
编程语言 时间:
2015-10-07 22:52:15
阅读次数:
1759
Adaboost有几个难点:1、弱分类器的权重怎么理解? 误差大的弱分类器权重小,误差小的弱分类器权重大。这很好理解。在台湾大学林轩田老师的视频中,推导说,这个权值实际上貌似梯度下降,权值定义成1/2ln((1-ε)/ε),实际上是有梯度下降,求梯度取最陡得到。2、弱分类器怎么通常选啥 可以选树.....
分类:
其他好文 时间:
2015-10-07 16:02:08
阅读次数:
288
回头再温习一下Andrew Ng的机器学习视频课,顺便把没写完的笔记写完。本节内容
牛顿方法
指数分布族
广义线性模型
之前学习了梯度下降方法,关于梯度下降(gradient descent),这里简单的回顾下【参考感知机学习部分提到的梯度下降(gradient descent)】。在最小化损失函数时,采用的就是梯度下降的方法逐步逼近最优解,规则为θ:=θ?η?θ?(θ)\theta := \the...
分类:
其他好文 时间:
2015-10-06 16:56:25
阅读次数:
363
Log-Linear 模型(也叫做最大熵模型)是 NLP 领域中使用最为广泛的模型之中的一个。其训练常採用最大似然准则。且为防止过拟合,往往在目标函数中增加(能够产生稀疏性的) L1 正则。但对于这样的带 L1 正则的最大熵模型,直接採用标准的随机梯度下降法(SGD)会出现效率不高和...
分类:
其他好文 时间:
2015-09-30 19:35:31
阅读次数:
237
下面的h(x)是要拟合的函数,J(theta)损失函数,theta是参数,要迭代求解的值,theta求解出来了那最终要拟合的函数h(theta)就出来了。其中m是训练集的记录条数,j是参数的个数。 1、批量梯度下降(BGD)的求解思路...
分类:
其他好文 时间:
2015-09-23 15:12:58
阅读次数:
595
程序文件 study2.m function study2()
? ? count=7;
? ? n=1;
? ? %X=[1 2 3 4 5 4.2 6 7 8]‘;
? ? %Y=[5,4,5,4.5,5,6,6 4 3]‘;
? ? X=1:10;
Y=rand(1,10)*100;
sita=rand(n,1);
overvalue=-...
分类:
其他好文 时间:
2015-09-15 13:11:21
阅读次数:
308
受限玻尔兹曼机 RBM 由于使用梯度下降发来对参数进行更新,因此关键是梯度如何求取,这里的推到结果显示了和BP神经网络类似的结果,可以非常容易的得到梯度的求取方式。 上面的$$实际上就是使用当前的参数,以$v_{i}$作为输入,得到的输出是$h_{j}$ $H = V*W+b$ 从输出层反推输入层 ...
分类:
其他好文 时间:
2015-09-13 17:17:47
阅读次数:
329
最常用的:梯度下降法(gradient descent)或最速下降法(steepest descent)。有实现简单的优点。梯度下降是迭代算法,每一步需要求解目标函数的梯度。当目标函数是凸函数时,梯度下降算法是全局最优解。一般情况下,其解不保证是全局最优解。梯度下降法的收敛速度也未必最快。还有,牛顿...
分类:
其他好文 时间:
2015-09-11 14:02:54
阅读次数:
207
主要内容: 回归 1.线性回归 2.Logistic回归 最优问题: 1.梯度下降 2.牛顿法 3.拟牛顿法 了解参数学习算法和非参数学习算法的区别 1. 2.线性回归
分类:
其他好文 时间:
2015-09-10 20:49:37
阅读次数:
183
梯度下降原理:将函数比作一座山,我们站在某个山坡上,往四周看,从哪个方向向下走一小步,能够下降的最快;当然解决问题的方法有很多,梯度下降只是其中一个,还有一种方法叫Normal Equation(标准方程); 方法:(1)先确定向下一步的步伐大小,我们称为Learning rate;(2)任意给定一...
分类:
其他好文 时间:
2015-09-08 15:09:20
阅读次数:
142