引言 支持向量机在很多地方都能遇到,主要是用于分类问题,而且简单粗暴,所以也很多人用,但对其深层次原理性的探讨至始至终看到过的资料中觉得林轩田老师讲的非常地到位,另外还有一个参考资料就是v_july_v写的SVM的三重境界,但july写的太多了,可能看起来比较吃力,所以挑选了这些文档以及课程中重要的...
分类:
其他好文 时间:
2015-04-27 18:07:27
阅读次数:
406
将软间隔支持向量机看做正则化模型上一小节中我们介绍了软间隔支持向量机,该模型允许有错分类数据的存在,从而使模型对数据有更好的适应性,有效避免过拟合的问题。
现在我们回顾一下松弛变量ξn,我们用ξn来记录违反分类边界的数据到边界的距离。
我们可以从另外一个角度,考虑一下ξn的计算:
对于任何一个点,如果该点违反了边界,那么ξn记录了其到边界的距离;如果没有违反,ξn为0。
所以我们可以...
分类:
其他好文 时间:
2015-04-23 02:08:58
阅读次数:
250
引言在上一小节中,我们介绍了核支持向量机。于是,不管是简单的问题还是复杂的问题,我们都可以做得到。
然而,像高斯核的方法太复杂了,可能造成过拟合的问题。导致过拟合的现象的原因有可能是你选择特征转换太强大了,导致无法用最大间隔的方法控制模型的复杂度,还有一个原因是,如果坚持将所有的数据都做到正确分类,这样有可能将噪声也考虑到模型的构建之中,这样就会将噪声拟合进你的结果中去了。软间隔支持向量机第一步:...
分类:
其他好文 时间:
2015-04-23 02:07:07
阅读次数:
341
感知机
学习策略
具体实现
数据集最大最小规范化
训练过程
测试
最终结果感知机是二分类的线性分类模型,由Rosenblatt于1957年提出,是支持向量机和神经网络的基础。感知机将学习到一个线性划分的分离超平面,属于判别模型。感知机输入空间为RnR^n空间,nn是特征数目,输出空间y={+1,?1}y=\{+1,-1\}。感知机学习一个如下的符号函数:
f(x)=sign(wx+b)f(x) =...
分类:
其他好文 时间:
2015-04-23 02:06:00
阅读次数:
171
引言在上一小节中,我们介绍了SVM的对偶形式,该形式也可以使用二次规划的方式来求解。
这个对偶形式告诉我们SVM背后的一些集合意义,再者,有了这个对偶问题,我们要求解的难度和转换的高维空间的维度好像没有关系。
在这一小节中,我们就之前未解决的问题继续探讨,使用核技巧的方式高效求解SVM。核技巧(Kernel Trick)在上一小节二次规划问题中的Q矩阵的求解中,我们要计算Z空间的两个向量的内积,...
分类:
其他好文 时间:
2015-04-20 01:54:26
阅读次数:
190
引言在上一小节中,我们介绍,用二次规划的方法来求解支持向量机的问题。如果用非线性的特征转化的方式,可以在一个更复杂的Z空间里做二次规划。这种思想是希望通过最大间隔的方式来控制模型的复杂度,通过特征转换来实现复杂的边界。
但是这引入了新的问题:在进行特征转换之后,在新的高维空间中,求解二次规划问题就会变得很困难。甚至在无限大的维度上求解最佳化的问题就变得不可能了。
所以,这一小节,我们要解答的是,...
分类:
其他好文 时间:
2015-04-20 00:35:38
阅读次数:
117
svmlib是支持向量机的一种工具,用法可以参照下面的链接。
链接:...
分类:
其他好文 时间:
2015-04-12 19:22:51
阅读次数:
99
在使用mahout之前要安装并启动hadoop集群
将mahout的包上传至linux中并解压即可
mahout下载地址:
点击打开链接
mahout中的算法大致可以分为三大类:
聚类,协同过滤和分类
其中
常用聚类算法有:canopy聚类,k均值算法(kmeans),模糊k均值,层次聚类,LDA聚类等
常用分类算法有:贝叶斯,逻辑回归,支持向量机,感知器,神经网络等
...
分类:
编程语言 时间:
2015-04-11 09:04:31
阅读次数:
328
当我们使用mllib做分类,用到逻辑回归或线性支持向量机做分类时,可能会出现下面的错误:
15/04/09 21:27:25 ERROR DataValidators: Classification labels should be 0 or 1. Found 3000000 invalid labels
Exception in thread "main" org.apache.spark.S...
分类:
Web程序 时间:
2015-04-09 23:52:01
阅读次数:
262
LibSVM是台湾林智仁(Chih-Jen Lin)教授2001年开发的一套支持向量机的库,这套库运算速度还是挺快的,可以很方便的对数据做分类或回归。由于libSVM程序小,运用灵活,输入参数少,并且是开源的,易于扩展,因此成为目前国内应用最多的SVM的库。这套库可以从http://www.csie...
分类:
其他好文 时间:
2015-04-05 14:35:10
阅读次数:
112