降维 参考网址http://dataunion.org/20803.html 【低方差滤波 (Low Variance Filter)】需先对数据做归一化处理 【高相关滤波】认为当两列数据变化趋势相似时,它们包含的信息也相似 【随机森林】对目标属性产生许多巨大的树,然后根据对每个属性的统计结果找到信
分类:
其他好文 时间:
2016-02-18 11:32:53
阅读次数:
269
感谢:https://github.com/ty4z2008/Qix/blob/master/dl.md 《Brief History of Machine Learning》 介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机、神经网络、决策树、SVM、Adaboost 到随机森林、Dee
分类:
其他好文 时间:
2016-02-16 16:52:41
阅读次数:
1845
三个臭皮匠顶个诸葛亮 --谁说的,站出来!1 前言 在科学研究中,有种方法叫做组合,甚是强大,小硕们毕业基本靠它了。将别人的方法一起组合起来然后搞成一个集成的算法,集百家之长,效果一般不会差。其实 也不能怪小硕们,大牛们也有这么做的,只是大牛们做的比较漂亮。 在PAC学习框架...
分类:
其他好文 时间:
2016-01-19 20:46:26
阅读次数:
429
的优点是,在一个决策树的形式数据是easy理解。和kNN最大的缺点是数据的内在含义,不能给予。1:这个概念很简单文字说明 决策树的类型有非常多。有CART、ID3和C4.5等。当中CART是基于基尼不纯度(Gini)的。这里不做具体解释,而ID3和C4.5都是基于信息熵的,它们两个得到的结果都是一样...
分类:
其他好文 时间:
2015-12-14 16:18:08
阅读次数:
204
library(randomForest)model.forest<-randomForest(Species~.,data=iris)pre.forest<-predict(model.forest,iris)table(pre.forest,iris$Species)library(rpart)...
分类:
编程语言 时间:
2015-11-01 15:17:44
阅读次数:
1437
1. 1、问题的引入 2、一个实例 3、基本概念 4、ID3 5、C4.5 6、CART 7、随机森林 2. 我们应该设计什么的算法,使得计算机对贷款申请人员的申请信息自动进行分类,以决定能否贷款? 一个女孩的母亲要给这个女孩介绍男朋友,于是有了下面的对话: 女儿:多大年纪了? 母亲:26。 女儿:...
分类:
编程语言 时间:
2015-09-29 23:20:37
阅读次数:
2173
随机森林入门攻略(内含R、Python代码)简介近年来,随机森林模型在界内的关注度与受欢迎程度有着显著的提升,这多半归功于它可以快速地被应用到几乎任何的数据科学问题中去,从而使人们能够高效快捷地获得第一组基准测试结果。在各种各样的问题中,随机森林一次又一次地展示出令人难以置信的强大,而与此同时它又是...
分类:
编程语言 时间:
2015-09-11 20:41:59
阅读次数:
423
大量研究表明,组合预测模型往往比单一预测模型的效果要好,而随机森林就是一种组合的预测方法,同时也是针对非线性、小样本的预测方法。国内用随机森林方法对煤与瓦斯突出进行预测的研究还很鲜见。因此,本文拟采用随机森林算法构建煤与瓦斯突出预测模型。
分类:
其他好文 时间:
2015-09-09 17:22:59
阅读次数:
298
你可能不知道的一些机器学习事儿
最近零零碎碎地看了很多机器学习方法的东西,增长了不少新知识。有很多小技巧虽然不会出现在教科书中,但它们真的很实用。
(1)随机森林模型不适合用稀疏特征。
(2)测试集必须使用与训练集相同的方法进行预处理。
(3)L1正则(特征选择)最小样本数目m与特征n呈log关系,m = O(log n) ;
L2正则(旋转不变)最小样本...
分类:
其他好文 时间:
2015-08-31 21:44:15
阅读次数:
234
Mahout的BreimanExample例子执行了
Leo Breiman: Random Forests. Machine Learning 45(1): 5-32 (2001)这篇论文的测试。
对它的分析我分为3个部分
- 森林生成的Iteration部分
- BreimanExample的测试执行部分
- 命令行执行部分Iteration部分迭代函数如下,对于训练数据集...
分类:
其他好文 时间:
2015-08-29 16:59:38
阅读次数:
206