考虑一个分类问题:根据一个动物的特征来区分该动物是大象(y=1)还是狗(y = 0).利用逻辑回归找到一条直线,即分界线,将训练集中的大象和狗分开,当给定一个新的动物特征时,检查该动物位于分界线的哪一边,然后做出判断是大象,还是狗,就是对p(y|x;θ)进行建模。这里我们来看另一种不同的思路,首先根...
分类:
其他好文 时间:
2014-10-07 23:39:34
阅读次数:
384
首先,我们引入分类问题,其实分类问题和回归问题很相似,只是分类问题中我们要预测的y值是有限数量的离散值,而不是回归问题中的连续值。为了说明,我们现在只讨论二分类问题,也就是说y只能取0和1两种值。对于这种二分类问题,当然也可以用线性回归去学习,然后根据给的的x预测出y,只是当预测出的y大于1或者小于...
分类:
其他好文 时间:
2014-10-07 01:00:32
阅读次数:
296
最近,本人要做个小东西,使用SVM对8类三维数据进行分类,搜索网上,发现大伙讨论的都是二维数据的二分类问题,遂决定自己研究一番。本人首先参考了opencv的tutorial,网址是:http://docs.opencv.org/doc/tutorials/ml/non_linear_svms/non_linear_svms.html#nonlinearsvms,这也是二维数据的二分类问题。然后通过...
分类:
其他好文 时间:
2014-10-05 11:40:18
阅读次数:
305
SVM的应用领域很广,分类、回归、密度估计、聚类等,但我觉得最成功的还是在分类这一块。用于分类问题时,SVM可供选择的参数并不多,惩罚参数C,核函数及其参数选择。对于一个应用,是选择线性核,还是多项式核,还是高斯核?还是有一些规则的。实际应用中,多数情况是特征维数..
分类:
其他好文 时间:
2014-10-01 13:19:01
阅读次数:
177
线性分类器(一定意义上,也可以叫做感知机)是最简单也很有效的分类器形式.在一个线性分类器中,可以看到SVM形成的思路,并接触很多SVM的核心概念.用一个二维空间里仅有两类样本的分类问题来举个小例子。如图所示C1和C2是要区分的两个类别,在二维平面中它们的样本如上图所示。中间..
分类:
其他好文 时间:
2014-10-01 00:50:50
阅读次数:
317
决策树有着非常广泛的应用,可以用于分类和回归问题。以下针对分类问题对决策树进行分析。
分类情况下,可以处理离散(if-then)的特征空间,也可以是连续(阈值化的if-than)的特征空间。
决策树由结点和边构成,其中结点分内结点(属性,特征)和外结点(类别)。边上代表着判别的规则,即if-then...
分类:
其他好文 时间:
2014-09-25 20:38:07
阅读次数:
435
机器学习(4)之Logistic回归1. 算法推导 与之前学过的梯度下降等不同,Logistic回归是一类分类问题,而前者是回归问题。回归问题中,尝试预测的变量y是连续的变量,而在分类问题中,y是一组离散的,比如y只能取{0,1}。 假设一组样本为这样如图所示,如果需要用线性回归来拟合这些样本...
分类:
其他好文 时间:
2014-09-11 23:45:12
阅读次数:
348
前面的7次笔记介绍的都是分类问题,本次开始介绍聚类问题。分类和聚类的区别在于前者属于监督学习算法,已知样本的标签;后者属于无监督的学习,不知道样本的标签。下面我们来讲解最常用的kmeans算法。
1:kmeans算法
Kmeans中文称为k-均值,步骤为:(1)它事先选定k个聚类中心,(2)然后看每个样本点距离那个聚类中心最近,则该样本就属于该聚类中心。(3)求每个聚类中心的样本...
分类:
其他好文 时间:
2014-09-09 16:17:19
阅读次数:
234
机器学习问题分为分类和回归问题 回归问题,就是预测连续型数值,而不像分类问题,是预测离散的类别 至于这类问题为何称为回归regression,应该就是约定俗成,你也解释不通 比如为何logistic regression叫逻辑回归,明明解决的是分类问题,而且和逻辑没有半点关系 谈到回归,最简单的就是...
分类:
其他好文 时间:
2014-09-05 17:45:41
阅读次数:
361
对于事件A和事件B同时出现的,一种信息论的描述方法就是互信息,计算方式如下其意义:由于事件A发生与事件B发生相关联而提供的信息量。在处理分类问题提取特征的时候就可以用互信息来衡量某个特征和特定类别的相关性,如果信息量越大,那么特征和这个类别的相关性越大。反之也是成立的。以搜狗实验室的语料为例。选取金...
分类:
其他好文 时间:
2014-08-31 01:38:40
阅读次数:
205