码迷,mamicode.com
首页 > 其他好文 > 详细

分类器学习笔记

时间:2014-07-16 21:09:56      阅读:268      评论:0      收藏:0      [点我收藏+]

标签:使用   os   数据   io   cti   re   

1、线性分类器(Linear Regression)

     1.1贝叶斯分类器

          朴素贝叶斯(Naive Bayes)分类器,以垃圾邮件分类为例子,需要特征之间满足条件独立的假设;

      局限性:

      (1)要求自变量和因变量之间满足线性关系;

      (2)因变量是定量变量,不可以是分类变量;如果因变量是分类变量,必须用logistic回归。

      1.2  Logistic Regression分类器

      Logistic Regression Cost Function:   minθ 1/m ∑i=1m [ y(i)*cost1Tx(i))+(1-y(i))*cost0Tx(i)) ]  +λ /(2m)  *∑nj=1 θ2         (    cost1Tx(i))=-log hθ(x(i)),  cost0Tx(i))=-log(1-hθ(x(i)))      )

                                            hθ(x(i))=1/(1+e-θTx(i))=g(z)

      从logistic回归的成本函数表达式可以看出,第二项作为regularization items(惩罚项),其中的θ对成本函数的作用与第一项中θ的作用是相反的,添加了惩罚项后,由参数λ调节控制,前后两项相互制约,使得θ既不能过大也不能过小,最终平衡到一个合适的值,使得训练集和测试集效果接近。但是从logistic的假设函数hθ来看,如果数据不是线性可分,则效果还是不好的。

      局限性:

      (1)自变量对疾病的影响是独立的,但实际情况及推导结果不同;

      (2)训练集的样例数目要有200例以上才可不考虑参数估计的偏性;

      (3)logistic分类器说到底是线性分类器,如果数据不是线性可分的,还是不能用logistic回归

2、  SVM classifier

      SVM分类器既可以作为线性分类器,也可以作为非线性分类器,这主要取决于它的核函数。

      如果不使用kernel(saying:‘linear kernel‘),则它是一个线性分类器;如果使用其他的核函数(e.g. Gaussian kernel),则是一个非线性分类器,具有非线性判决边界。

     SVM作为线性分类器主要用在特征数目n很大,样本数据m很小的情况。因为如果你的训练样本很少,再采用复杂的分类函数,就会很容易出现过拟合。SVM作为非线性分类器主要用在特征数目很少,样本数目非常多的情况。因为如果你有非常多的训练样本,就可以采用非线性判决边界,去获得更加准确的分类效果。

      Logistic Regression Cost Function:   minθ 1/m ∑i=1m [ y(i)*cost1Tx(i))+(1-y(i))*cost0Tx(i)) ]  +λ /(2m)  *∑nj=1 θ2         (    cost1Tx(i))=-log hθ(x(i)),  cost0Tx(i))=-log(1-hθ(x(i)))      )

      SVM Cost Function:                           minθ    C* ∑i=1m [ y(i)*cost1Tf(i))+(1-y(i))*cost0Tf(i)) ]  +  1/2 *∑nj=1 θ2             (    cost1Tf(i))=-log hθ(x(i)),  cost0Tf(i))=-log(1-hθ(x(i)))      )

      对比logistic回归和SVM的成本函数,发现它们在形式上是一样的,不同之处其实仅仅在于假设函数hθ。logistic回归的判断依据是θTx(i)>>0, y=1;θTx(i)<<0, y=0;即其分类依据是要让成本函数整个的要尽可能小;而SVM分类器判别依据是:θTx(i)>=1, y=1;θTx(i)<=-1, y=0;即只要判为1的点和判为0的点都距离boundary有1的单位间隔就好了,所以SVM分类器又叫做“最大间隔分类器”。

      在上面的成本函数中,第二项体现了SVM被称为“large margin classifier”(最大间隔分类器)的原理(根据计算内积的原理推导,约束条件是假设函数成立(即y=1时,θTx(i)>=1;y=0时,θTx(i)<=-1),此时第一项为0,只剩第二项。实际上还是取决于假设函数hθ(x(i)));第一项中的假设函数hθ(x(i)),以及核函数X--->f的映射,决定了SVM non-linear classifier的性质;第一项中的常数C,相当于logistic回归 regularization项中的参数λ,起到调节参数个数(即特征个数),防止过拟合的作用。

      局限性:

      (1)由于SVM的核函数本质上的作用还是为了生成新的特征,因此,对于特征数目远远大于样本数目的数据来说,先进行特征筛选是非常有必要的,否则,会很容易出现过拟合;

      (2)核函数的选择需要依靠经验;

     

分类器学习笔记,布布扣,bubuko.com

分类器学习笔记

标签:使用   os   数据   io   cti   re   

原文地址:http://www.cnblogs.com/zichun-zeng/p/3833952.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!