机器学习中的数据不平衡问题最近碰到一个问题,其中的阳性数据比阴性数据少很多,这样的数据集在进行机器学习的时候会使得学习到的模型更偏向于预测结果为阴性。查找了相关的一些文献,了解了一些解决这个问题的一些方法和技术。首先,数据集不平衡会造成怎样的问题呢。一般的学习器都有下面的两个假设:一个是使得学习器的...
分类:
其他好文 时间:
2014-08-20 15:52:02
阅读次数:
229
最近的图像分类工作要用到latent svm,为了更加深入了解svm,自己动手实现一个简单版的。...
分类:
编程语言 时间:
2014-08-19 22:31:15
阅读次数:
378
机器学习十大算法之一:EM算法。能评得上十大之一,让人听起来觉得挺NB的。什么是NB啊,我们一般说某个人很NB,是因为他能解决一些别人解决不了的问题。神为什么是神,因为神能做很多人做不了的事。那么EM算法能解决什么问题呢?或者说EM算法是因为什么而来到这个世界上,还吸引了那么多世人的目光。 我希望自...
分类:
其他好文 时间:
2014-08-19 14:14:24
阅读次数:
180
SVM(支持向量机)是机器学习算法里用得最多的算法。SVM最常用的是用于分类,不过SVM也可以用于回归,我的实验中就是用SVM来实现SVR(支持向量回归)。对于功能这么强的算法,opencv中自然也是集成好了,我们可以直接调用。
网上讲opencv中SVM使用的文章有很多,但讲SVM参数优化的文章却很少。所以在这里不重点讲怎么使用SVM,而是谈谈怎样通过opencv自带的库优化SVM中的参数。...
分类:
其他好文 时间:
2014-08-19 10:57:54
阅读次数:
494
一、逻辑回归(LogisticRegression) Logistic regression (逻辑回归)是当前业界比较常用的机器学习方法,用于估计某种事物的可能性。之前在经典之作《数学之美》中也看到了它用于广告预测,也就是根据某广告被用户点击的可能性,把最可能被用户点击的广告摆在用户能看到的地.....
分类:
其他好文 时间:
2014-08-18 23:28:23
阅读次数:
378
1:简单概念描述
Adaboost是一种弱学习算法到强学习算法,这里的弱和强学习算法,指的当然都是分类器,首先我们需要简单介绍几个概念。
1:弱学习器:在二分情况下弱分类器的错误率会高于50%。其实任意的分类器都可以做为弱分类器,比如之前介绍的KNN、决策树、Naïve Bayes、logiostic回归和SVM都可以。这里我们采用的弱分类器是单层决策树,它是一个单节点的决策树。...
分类:
其他好文 时间:
2014-08-18 22:07:03
阅读次数:
334
通常情况下,我们直接使用分类结果的错误率就可以做为该分类器的评判标准了,但是当在分类器训练时正例数目和反例数目不相等时,这种评价标准就会出现问题。这种现象也称为非均衡分类问题。此时有以下几个衡量标准。
(1) 正确率和召回率
如下图所示:其中准确率指预测的真实正例占所有真实正例的比例,等于TP/(TP+FP),而召回率指预测的真实正例占所有真实正例的比例,等于T...
分类:
其他好文 时间:
2014-08-18 22:04:13
阅读次数:
392
文本分类现已比较成熟,各类开源工具不少,现推荐几个比较常用简单的工具:1、scikit-learn:http://scikit-learn.org/stable/index.html python编写调用,里面有各种分类算法svm、随机森林、贝叶斯等,和特征提取,如字、ngram等,几行代码便可以构...
分类:
其他好文 时间:
2014-08-18 17:52:42
阅读次数:
193
CSDN的博主poson在他的博文《机器学习的最优化问题》中指出“机器学习中的大多数问题可以归结为最优化问题”。我对机器学习的各种方法了解得不够全面,本文试图从凸优化的角度说起,简单介绍其基本理论和在机器学习算法中的应用。 1.动机和目的 人在面临选择的时候重视希望自己能够做出“最好”的选择,如果把...
分类:
其他好文 时间:
2014-08-16 21:03:31
阅读次数:
192
MALLET:基于Java语言的用于统计自然语言处理,文件分类,聚类,主题建模,信息提取,和其他的用于文本的机器学习应用的Java包。
MALLET包括复杂的用于文件分类的工具:
有效的用于转换文本到“特征”的程序,多种多样的算法(包括朴素贝叶斯,最大熵,和决策树)。以及一些通用的指标用于评估分类器性能。
除了分类,MALLET包括序列标注的工具,像从文本...
分类:
其他好文 时间:
2014-08-16 11:15:20
阅读次数:
256