这次主要想写两篇,一篇把决策树的相关思想和方法解释清楚,另外一个说一下ensemble形式的决策树,random forest,依据主要是breiman的论文。 这篇讲决策树(主要以cart为例,因为random forest的大多实现也是根据cart) 1、cart的生成。 cart的全称是cla ...
分类:
其他好文 时间:
2016-09-09 16:40:50
阅读次数:
106
集成学习(ensemble learning)通过构建并结合多个学习期来完成学习任务,同质学习器和异质学习器。 弱学习器:泛化性能略优于随机猜测的学习器 集成学习通过过个学习器进行结合,可以获得比单一学习器显著优越的泛化性能 集成学习中对个体学习器的要求是要有准确性和差异性(好而不同) 集成学习的关 ...
分类:
其他好文 时间:
2016-09-05 20:58:48
阅读次数:
176
Bagging 即为 Boostrap Aggregation,也是一种集成学习的方式,之前在已经介绍过关与 Ensemble Learning 的内容与评价标准,其中“多样性”体现在应尽可能的使各个基学习器不同,Bagging 的做法是这样的,给定训练集 D ,对 D 进行 Bootstrap 采... ...
分类:
其他好文 时间:
2016-07-15 19:42:13
阅读次数:
248
最近看sklearn的源码比较多,好记性不如烂笔头啊,还是记一下吧。
整体:
)实现的代码非常好,模块化、多继承等写的很清楚。
)predict功能通常在该模型的直接类中实现,fit通常在继承的类中实现,方便不同的子类共同引用。
随机森林 和 GBDT
)RandomForest的bootstrap是又放回的;GBDT则是无放回的。...
分类:
其他好文 时间:
2016-07-13 16:56:49
阅读次数:
1890
Ensemble Learning 集成学习是组合多个模型来共同完成一个任务的方法,每个模型可以叫做基学习器,集学习器通过现有的学习算法从训练数据中训练得到,常见的如 Decision Tree 与 Neural Network ,衡量集成学习主要有两个指标: 准确性:即个体学习器要有一定的准确性,... ...
分类:
其他好文 时间:
2016-07-12 17:08:46
阅读次数:
201
上一期讨论了Tensorflow以及Gensim的Word2Vec模型的建设以及对比。这一期,我们来看一看Mikolov的另一个模型,即Paragraph Vector模型。目前,Mikolov以及Bengio的最新论文Ensemble of Generative and Discriminativ ...
分类:
其他好文 时间:
2016-05-30 01:05:17
阅读次数:
2325
在这篇文章中,我会详细地介绍Bagging、随机森林和AdaBoost算法的实现,并比较它们之间的优缺点,并用scikit-learn分别实现了这3种算法来拟合Wine数据集。全篇文章伴随着实例,由浅入深,看过这篇文章以后,相信大家一定对ensemble的这些方法有了很清晰地了解。...
分类:
其他好文 时间:
2016-05-27 12:52:54
阅读次数:
856
本文的数据集和上一篇一样,是美国个人收入信息。在上一篇末尾提到了随机森林算法,这一篇就介绍随机森林。Ensemble Models
随机森林是一种集成模型(Ensemble Models),集成模型结合了多个模型然后创建了一个精度更高的模型下面我们创建两个决策树,他们的参数不相同,然后计算他们的预测精度:
from sklearn.tree import DecisionTreeClassifi...
分类:
其他好文 时间:
2016-04-29 15:41:22
阅读次数:
426
1.机器信息 五台centos 64位机器 2.集群规划 Server Name Hadoop Cluster Zookeeper Ensemble HBase Cluster Ip Hadoop01 Name node & Resource manager Master 192.168.12.60 ...
分类:
其他好文 时间:
2016-04-28 12:05:16
阅读次数:
421
1.机器信息 五台centos 64位机器 2.集群规划 Server Name Hadoop Cluster Zookeeper Ensemble HBase Cluster Hadoop01 Name node & Resource manager Master Hadoop02 Seconda ...
分类:
其他好文 时间:
2016-04-27 22:40:53
阅读次数:
669