码迷,mamicode.com
首页 > 其他好文 > 详细

(笔记)斯坦福机器学习第四讲--牛顿法

时间:2017-06-02 11:37:11      阅读:377      评论:0      收藏:0      [点我收藏+]

标签:ural   不同   poi   最优   9.png   hle   估计   计数   tin   

本讲内容

1. Newton‘s method(牛顿法)

2. Exponential Family(指数簇)

3. Generalized Linear Models(GLMs)(广义线性模型)

 

1.牛顿法

技术分享

假如有函数技术分享, 寻找技术分享使得技术分享

牛顿法的步骤如下:

(1) initialize 技术分享 as some value. 上图中用 技术分享 初始化技术分享 的值

(2) 在这一点上对f求值得到技术分享,之后计算这一点的导数值技术分享

(3) 作该点的切线,得到与横轴的交点的值技术分享,此为牛顿法的一次迭代。

更新公式为

技术分享         技术分享

 

技术分享

我们可以使用牛顿法取代梯度上升法作极大似然估计

对对数似然函数技术分享, want 技术分享 s.t. 技术分享

 

对于一次迭代,技术分享

通常来说,牛顿法对函数f有一定的要求(具体没说),牛顿法对logistic函数效果很好。

技术分享的初始值并不会对牛顿法收敛的结果产生影响。

牛顿法的收敛属于二次收敛(每一次迭代都会使误差的数量级乘方),正常情况下速度会比二次收敛慢,但是依然比梯度下降法快。

牛顿法的一般化:

技术分享

H is the Hessian matrix(黑塞矩阵) 技术分享

牛顿法的缺点是,当特征数量过大的时候,求黑塞矩阵的逆会耗费相当长的时间。

 

 

2.指数簇

指数簇的一般形式

技术分享

技术分享 -自然参数(natural parameter)

技术分享- 充分统计量(sufficient statistic) 通常情况下(伯努利分布或者高斯分布): 技术分享

固定a,b,T, 改变技术分享的值, 会得到一组不同的概率分布。

伯努利分布和高斯分布都是指数分布簇的特例

对于伯努利分布

技术分享

技术分享

            技术分享

            技术分享

            技术分享

技术分享

   技术分享     技术分享

   技术分享 技术分享

 技术分享

对于高斯分布

考虑到方差对最终结果没有影响, 在这里设置技术分享

技术分享

     技术分享

技术分享

   技术分享

   技术分享

   技术分享

 

指数分布族还包括很多其他的分布: 
多项式分布(multinomial) 
泊松分布(poisson):用于计数的建模 
伽马分布(gamma),指数分布(exponential):用于对连续非负的随机变量进行建模 
β分布Dirichlet分布:对小数建模 

 

3.广义线性模型(GLMS)

为了导出广义线性模型,首先制定三个假设:

(1) 技术分享

(2) Given 技术分享, goal is to output 技术分享

    want 技术分享

(3) 技术分享  即自然参数与特征向量之间是线性相关的

 

对于伯努利分布

技术分享   技术分享

在上节的指数簇中推导出 技术分享  技术分享

而根据假设(3) 技术分享

技术分享

我们的目标是输出  技术分享

由上节知 技术分享

技术分享

             技术分享

而  技术分享

技术分享

      技术分享

      技术分享

该函数即为logistic 函数

 

对于高斯分布

在最小二乘估计中,我们假设响应变量是连续的,且服从高斯分布 技术分享

我们的目标是输出技术分享 

由上节知 技术分享

技术分享

      技术分享

      技术分享

             技术分享

顺带一提

正则响应函数(canonical response function):技术分享 
正则链接函数(canonical link function):技术分享 

 

 

4.Softmax回归(多类分类问题)

多项式分布 技术分享

技术分享

技术分享

这k个参数是冗余的,所以 我们定义 技术分享

在后面的过程中,我们将不使用 技术分享 这个参数

多项式分布属于指数分布簇,但是 技术分享

在这里按照如下定义技术分享

技术分享   技术分享 ... 技术分享  技术分享

都是k-1维的向量

引入指示函数技术分享技术分享

用  技术分享 表示向量技术分享 的第技术分享个元素,则 技术分享

 

技术分享

        技术分享

       技术分享

 

where 技术分享

         技术分享

         技术分享

反过来,

技术分享

技术分享

技术分享

技术分享

技术分享

技术分享

技术分享

为了减少参数冗余,定义

技术分享

技术分享

 

由GLMS的假设3:  技术分享

技术分享

 

所以我们可以得到需要的假设技术分享

技术分享

          技术分享

          技术分享

这种方法是logistic回归的推广,应用于多分类问题。

优化目标依然是极大似然估计

技术分享

         技术分享

 

 其中

技术分享

使用梯度上升法或者牛顿法解得最优参数技术分享

 

第四讲完。

 

        

 

     

 

(笔记)斯坦福机器学习第四讲--牛顿法

标签:ural   不同   poi   最优   9.png   hle   估计   计数   tin   

原文地址:http://www.cnblogs.com/madrabbit/p/6912843.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!