从上一课可知,对于给定的线性可分的数据集,离分隔超平面最近的点是支持向量。而支持向量与分隔超平面间的距离越远,则说明最后算法的预测结果越可信。这课的核心就在于如何确定最佳的分隔超平面,即最优间隔分类器。
首先我们要介绍其中的数学推理,然后介绍最优间隔分类器。
1、凸优化问题
选取一个函数里的两个点,连接两个点成一条直线,两点间的函数点都在这条直线下即为凸函数,凸函数的例子有指数函数。...
分类:
其他好文 时间:
2015-07-24 20:58:31
阅读次数:
165
Query 1)Select * From test;no1no21122334455Query 2)select @wokao:= (no1 + no2), @wokao from test group by no1;no1no2224466881010Query 3)select @wokao:...
分类:
数据库 时间:
2015-07-15 13:05:45
阅读次数:
303
最近碰到一个问题,其中的阳性数据比阴性数据少很多,这样的数据集在进行机器学习的时候会使得学习到的模型更偏向于预测结果为阴性。查找了相关的一些文献,了解了一些解决这个问题的一些方法和技术。首先,数据集不平衡会造成怎样的问题呢。一般的学习器都有下面的两个假设:一个是使得学习器的准确率最高,另外一个是学习...
分类:
其他好文 时间:
2015-06-16 10:46:39
阅读次数:
145
融合模型(Aggregation Model)如果我们已经得到了一些特征或者假设,它们和我们做机器学习的目标有若干的一致性的话,我们可以将这些假设综合起来,让预测效果变得更好,这样的模型被称为融合模型。
融合模型是通过混合(mix)和组合(combine)一些假设的方式,得到更好的预测结果。
下面列举了四种不同的混合组合方式,并给出了数学表示形式:
当有多个假设时,我们选择检验误差最小...
分类:
其他好文 时间:
2015-06-11 22:58:59
阅读次数:
165
Part1 回归基础综述
回归方法有很多种,最常见的是线性回归(又有一元和多元之分)、多项式回归、非线性回归。另外还将简单说明对预测结果的检验方法。
线性回归
一元线性回归,是最简单最常见的回归模型,类似初中数学中的一元一次方程,它的基本模型如下:
我们常见的一元线性回归方程一般没有最后一项,确切的说,我们在实际的应用中也忽略了最后一项。最后一项ui的现实意义是:它是指除...
分类:
编程语言 时间:
2015-05-19 13:14:22
阅读次数:
298
分类:将实例数据划分到合适的分类中。目标变量是离散型。回归:预测数值型数据。目标变量是连续型的数值。监督学习:必须知道预测什么,即目标变量的分类信息。目标变量是机器学习算法的预测结果。开发机器学习应用程序的步骤:1)收集数据;2)准备输入数据;3)分析输入数据;4)训练算法;5)测试算法;6)使用算...
分类:
其他好文 时间:
2014-12-28 20:46:50
阅读次数:
109
R中的adabag包均有函数实现bagging和adaboost的分类建模(另外,ipred包中的bagging()函数可以实现bagging回归)。第一题就利用adabag包实现bagging和adaboost建模,并根据预测结果选择最优模型。
a) 为了描述这两种方式,先利用全部数据建立模型:
利用boosting()(原来的adaboost.M1()函数)建立adaboost分...
分类:
其他好文 时间:
2014-12-26 14:42:54
阅读次数:
274
监督学习(supervised learning):叫监督学习的原因是因为我们告诉了算法,我们想要预测什么。所谓监督,其实就是我们的意愿是否能直接作用于预测结果。典型代表:分类(classification)和回归(regression)。非监督学习(unsupervised learning):在...
分类:
其他好文 时间:
2014-12-21 00:39:40
阅读次数:
232
KNN k临近算法遍历所有训练样本,求距离最近的点的结论,作为最后的预测结果MR版:map求样本距离(key:样本,value:距离),combine求的最小值,是过滤功能,reduce就有一个求得距离最小值贝叶斯:贝叶斯定理公式:P(A|B)=P(B|A)*P(A)/P(B)贝叶斯将在属性条件下的...
分类:
其他好文 时间:
2014-12-15 10:21:20
阅读次数:
121