监督学习多用来解决分类问题,输入的数据由特征和标签两部分构成。我们由浅入深地介绍一些经典的有监督的机器学习算法。 这里介绍一些比较简单容易理解的处理线性分类问题的算法。 线性可分&线性不可分 首先,什么是线性分类问题?线性分类问题是指,根据标签确定的数据在其空间中的分布,可以使用一条直线(或者平面, ...
分类:
其他好文 时间:
2016-08-28 06:29:07
阅读次数:
225
#1,概念 在机器学习领域,支持向量机SVM(Support Vector Machine)是一个有监督的学习模型,通常用来进行模式识别、分类、以及回归分析。 SVM的主要思想可以概括为两点:⑴它是针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转 ...
分类:
其他好文 时间:
2016-07-20 09:02:02
阅读次数:
469
原题:线性判别分析仅在线性可分数据上能获得理想结果,试设计一个改进方法,使其能够用于非线性可分数据。 这里我采用二次判别分析来对原来的西瓜数据集进行分类,同样采用sklearn里的二次判别库。 二次判别分析结果和线性判别分析结果分别如下: 可以看到对于线性不可分数据,二次判别分析的效果非常好。 ...
分类:
其他好文 时间:
2016-06-28 20:17:39
阅读次数:
407
支持向量机是建立在统计学习理论基础之上的新一代机器学习算法,支持向量机的优势主要体现在解决线性不可分问题,它通过引入核函数,巧妙地解决了在高维空间中的内积运算,从而很好地解决了非线性分类问题。 构造出一个具有良好性能的SVM,核函数的选择是关键.核函数的选择包括两部分工作:一是核函数类型的选择,二是
分类:
其他好文 时间:
2016-03-19 11:11:33
阅读次数:
153
3.1 线性不可以分我们之前讨论的情况都是建立在样例线性可分的假设上,当样例线性不可分时,我们可以尝试使用核函数来将特征映射到高维,这样很可能就可分了。然而,映射后我们也不能100%保证可分。那怎么办呢,我们需要将模型进行调整,以保证在不可分的情况下,也能够尽可能地找出分隔超平面。看下面两张图:可以...
分类:
其他好文 时间:
2015-11-26 12:41:19
阅读次数:
125
本节续上节机器学习之logistic回归与分类对logistic分类的线性与非线性进行实验。上节中的“种子”分类实例中,样本虽然有7维,但是很大很大程度上符合线性可分的,为了在说明上节中的那种logistic对于非线性不可分,进行如下的两组样本进行实验,一组线性,一组非线性,样本如下:
线性样本:
非线性样本:
为了防止完全可分,在1,2类样本的分界面上重叠一部分样本,也就是说这部分样本很...
分类:
其他好文 时间:
2015-08-09 12:44:36
阅读次数:
111
初次是根据“支持向量机通俗导论(理解SVM的三层境界)”对SVM有了简单的了解。总的来说其主要的思想可以概括为以下两点(也是别人的总结)1、SVM是对二分类问题在线性可分的情况下提出的,当样本线性不可分时,它通过非线性的映射算法,将在低维空间线性不可分的样本映射到高维的特征空间使其线性可分,从而使得...
分类:
其他好文 时间:
2015-08-09 12:12:03
阅读次数:
1331
假设正类样本远多于负类1、线性可分的情况假设真实数据集如下:由于负类样本量太少,可能会出现下面这种情况使得分隔超平面偏向负类。2、线性不可分的情况源数据以及理想的超平面情况如下:很可能由于负类样本太少出现以下这种情况,严重偏向负类
分类:
其他好文 时间:
2015-07-11 12:10:00
阅读次数:
116
一、集成学习方法的思想
前面介绍了一系列的算法,每个算法有不同的适用范围,例如有处理线性可分问题的,有处理线性不可分问题。在现实世界的生活中,常常会因为“集体智慧”使得问题被很容易解决,那么问题来了,在机器学习问题中,对于一个复杂的任务来说,能否将很多的机器学习算法组合在一起,这样计算出来的结果会不会比使用单一的算法性能更好?这样的思路就是集成学习方法。
集成学习方法是指组合多...
分类:
编程语言 时间:
2015-06-16 13:07:53
阅读次数:
173