引入我们回顾一下之前学习的两个算法,Bagging算法中,通过bootstrapping得到不一样的数据,通过这些数据送到一个基本算法之后,得到不同的g,最后对这些g取平均得到G;决策树算法中,通过递归方式建立子树,最终得到一棵完整的树。
这两种算法都有其鲜明的特点,决策树对于不同的数据相对会敏感一些,即其算法的variance很大,而Bagging的特点是通过投票和平均的方式来降低varianc...
分类:
编程语言 时间:
2015-07-26 12:39:46
阅读次数:
1131
引言上一节中介绍了《随机森林算法》,该算法使用bagging的方式作出一些决策树来,同时在决策树的学习过程中加入了更多的随机因素。该模型可以自动做到验证过程同时还可以进行特征选择。
这一节,我们将决策树和AdaBoost算法结合起来,在AdaBoost中每一轮迭代,都会给数据更新一个权重,利用这个权重,我们学习得到一个g,在这里我们得到一个决策树,最终利用线性组合的方式得到多个决策树组成的G。...
分类:
其他好文 时间:
2015-07-26 12:38:46
阅读次数:
149
决策树和随机森林一、实验说明1. 环境登录无需密码自动登录,系统用户名shiyanlou,密码shiyanlou2. 环境介绍本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到程序:1. LX终端(LXTerminal): Linux命令行终端,打开后会进入Bash环境,可以使用Lin...
分类:
编程语言 时间:
2015-07-18 10:47:11
阅读次数:
2529
应该是去年的这个时候,我开始接触机器学习的相关知识,当时的入门书籍是《数据挖掘导论》。囫囵吞枣般看完了各个知名的分类器:决策树、朴素贝叶斯、SVM、神经网络、随机森林等等;另外较为认真地复习了统计学,学习了线性回归,也得以通过orange、spss、R做一些分类预测工作。可是对外说自己是搞机器学习的...
分类:
编程语言 时间:
2015-07-16 16:18:12
阅读次数:
461
处理过拟合的方法:1、去噪(数据清洗);2、增加训练数据集(收集或构造新数据)3、正则化(L1、L2)4、减少特征数目5、对于决策树可以采用剪枝法6、采用组合分类器(装袋或随机森林)7、选择合适的迭代停止条件8、迭代过程中进行权值衰减(以某个小因子降低每个权值)
分类:
其他好文 时间:
2015-07-11 22:41:55
阅读次数:
478
《Brief History of Machine Learning》 介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机、神经网络、决策树、SVM、Adaboost 到随机森林、Deep Learning.《Deep Learning in Neural Networks: An Ove....
分类:
系统相关 时间:
2015-06-21 18:26:21
阅读次数:
382
本文主要详细地介绍了一种灵活高效地机器学习算法——随机森林(Random Forest)。对其理论研究和工业领域中的应用进行了简单的介绍,并且详细地介绍了它的工作机制,最后用Python进行了实现。
分类:
系统相关 时间:
2015-06-19 13:20:23
阅读次数:
207
目前,人们已经对多种机器学习的模型进行了比较,随机森林经常独占鳌头[1]。 ----题记 随机森林算法,在图像处理中经常见到,另外一个经常见...
分类:
其他好文 时间:
2015-06-07 23:21:24
阅读次数:
3564
随机森林是一个最近比较火的算法,它有很多的优点: 在数据集上表现良好 在当前的很多数据集上,相对其他算法有着很大的优势 它能够处理很高维度(feature很多)的数据,并且不用做特征选择 在训练完后,它能够给出哪些feature比较重要 在创建随机森林的时候,对generlization error...
分类:
其他好文 时间:
2015-06-03 21:07:26
阅读次数:
137