这里以二元分类为例子,给出最基本原理的解释 GBDT 是多棵树的输出预测值的累加 GBDT的树都是 回归树 而不是分类树 分类树 分裂的时候选取使得误差下降最多的分裂 计算的技巧 最终分裂收益按照下面的方式计算,注意圆圈内的部分是固定值 GBDT 二分类 GBDT在实现中可以完全复用上面的计算方法框 ...
分类:
其他好文 时间:
2016-10-10 20:34:25
阅读次数:
105
xgboost是基于GBDT原理进行改进的算法,效率高,并且可以进行并行化运算; 而且可以在训练的过程中给出各个特征的评分,从而表明每个特征对模型训练的重要性, 调用的源码就不准备详述,本文主要侧重的是计算的原理,函数get_fscore源码如下, 源码来自安装包:xgboost/python-pa ...
分类:
其他好文 时间:
2016-10-03 19:11:50
阅读次数:
2454
由于最近要经常用到XGBOOST的包,不免对相关的GBDT的原理又重新学习了一遍, 发现其中在考虑损失函数的时候,是以对数log进行度量的,囿于误差平方和函数的印象 那么为什么是对数呢?可能是下面的原因: 【通俗的解释】 对数损失是用于最大似然估计的。一组参数在一堆数据下的似然值,等于每一条数据的概 ...
分类:
其他好文 时间:
2016-09-30 00:53:41
阅读次数:
376
逻辑回归算法相信很多人都很熟悉,也算是我比较熟悉的算法之一了,毕业论文当时的项目就是用的这个算法。这个算法可能不想随机森林、SVM、神经网络、GBDT等分类算法那么复杂那么高深的样子,可是绝对不能小看这个算法,因为它有几个优点是那几个算法无法达到的,一是逻辑回归的算法已经比较成熟,预测较为准确;二是 ...
分类:
其他好文 时间:
2016-09-12 19:08:47
阅读次数:
696
大家都清楚神经网络在上个世纪七八十年代是着实火过一回的,尤其是后向传播BP算法出来之后,但90年代后被SVM之类抢了风头,再后来大家更熟悉的是SVM、AdaBoost、随机森林、GBDT、LR、FTRL这些概念。究其原因,主要是神经网络很难解决训练的问题,比如梯度消失。当时的神经网络研究进入一个低潮... ...
分类:
其他好文 时间:
2016-08-30 13:38:16
阅读次数:
198
以下内容仅为自己梳理知识,是许多人博客看后和思考的结晶,无故意抄袭,也记不清都看了哪些大神的博客。。。大家看见切勿怪罪! 决策树: 决策树可分为分类树和回归树. ID3,C45是经典的分类模型,可二分类,多分类。它是通过挑选对整体区分度较大的属性,朝着混乱程度减小的方向,迭代建立的过程。使得最终也节 ...
分类:
其他好文 时间:
2016-08-22 23:27:05
阅读次数:
207
在网上看到一篇对从代码层面理解gbdt比较好的文章,转载记录一下: GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做 ...
分类:
其他好文 时间:
2016-08-18 14:27:12
阅读次数:
181
本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com 前言: 决策树这种算法有着很多良好的特性,比如说训练时间复杂度较低,预测的过程比较快速,模型容易 ...
分类:
其他好文 时间:
2016-08-02 11:32:50
阅读次数:
182
最近看sklearn的源码比较多,好记性不如烂笔头啊,还是记一下吧。
整体:
)实现的代码非常好,模块化、多继承等写的很清楚。
)predict功能通常在该模型的直接类中实现,fit通常在继承的类中实现,方便不同的子类共同引用。
随机森林 和 GBDT
)RandomForest的bootstrap是又放回的;GBDT则是无放回的。...
分类:
其他好文 时间:
2016-07-13 16:56:49
阅读次数:
1890
在网上看到一篇对从代码层面理解gbdt比较好的文章,转载记录一下: GBDT(Gradient Boosting Decision Tree) 又 叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论 累加起 ...
分类:
其他好文 时间:
2016-07-01 22:50:34
阅读次数:
220