sss

时间：2017-12-02 20:21:31 阅读：338 评论：0 收藏：0 [点我收藏+]

　　一棵决策树包含一个根节点、若干个内部节点、若干个叶节点。叶节点对应于决策结果，其他节点对应于一个属性测试。每个节点包含的样本集合根据属性测试的结果被划分到子节点中。根节点（纹理）包含样本全集，根节点下的节点（根蒂）包含所有纹理=清晰的样本。从根节点到每个叶节点的路径对应一个判定测试序列。决策树的学习就是要产生一棵对新样本预测正确率高的决策树。

　　李航《统计学习方法》中的介绍

　　决策树(decision tree)是一种基本的分类与回归方法。决策树模型呈树形结构，在分类问题中，表示基于特征对实例进行分类的过程。它可以认为是if-then规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。其主要优点是模型具有可读性，分类速度快。学习时，利用训练数据，根据损失函数最小化的原则建立决策树模型。预测时，对新的数据，利用决策树模型进行分类。决策树学习通常包括3个步骤：特征选择、决策树的生成和决策树的修剪。这些决策树学习的思想主要来源于由Quinlan在1986年提出的ID3算法和1993年提出的C4.5算法，以及由Breiman等人在1984年提出的CART算法。

特征选择

　　决策树学习的关键在于：在每个节点上如何选择最优划分属性。

　　在引例中，在根节点上，优先选择了“纹理”作为划分属性，这种选择是有依据的。

　　一般而言，随着划分过程不断进行，我们希望决策树的分支节点所包含的样本尽可能属于同一类别，即节点的“纯度”越来越高。因此我们要找一个指标，去衡量划分数据集后“纯度提升的幅度”，然后选择能让“纯度提升的幅度”最大的特征去划分数据集。

　　常用的衡量“纯度提升的幅度”的指标有：信息增益、信息增益率、基尼指数。

　　基于信息增益生成决策树的算法，称为ID3算法。

　　基于信息增益率生成决策树的算法，称为C4.5算法。

　　基于基尼指数生成决策树的算法，称为CART算法。

　　二娃：为什么要在每个节点上都要费老大劲去选择最优划分属性呢？先看看我们有哪些特征（色泽、根蒂...触感），按顺序选呗？

　　假设有一个训练集，有4个特征A、B、C、D；标记={0,1}。我们发现：无论ABC取什么，标记都和D的取值一样，也就是说，D是最主要的因素。如果用D作为划分特征的话，我们的决策树将会十分精致（模型即简单又准确）；如果没选D，那么遗憾了，模型可能会变得复杂（有过拟合的风险），还会额外增加计算量。

使用ID3算法生成决策树

　　ID3算法是基于信息增益生成决策树的算法。

　　首先定义“信息熵”，它是度量样本集合纯度的一种指标。假定当前样本集合D中第k类（k=1,2,...，|Y|）样本所占的比例为p_k，则D的信息熵定义为

技术分享图片

　　假设离散属性a有V个可能的取值技术分享图片，若用a来对样本集D进行划分，则会产生V个分支节点，其中第v个分支节点包含了D中所有在属性a上取值为a^v的样本，记为D^v。计算出D^v的信息熵，再考虑到不同的分支节点所包含的样本数不同，给分支节点赋予权重技术分享图片，即样本数越多的分支节点影响越大，于是可计算出用属性a对样本集D进行划分所获得的“信息增益”：

技术分享图片

　　信息增益越大，则意味着用属性a来进行划分所获得的“纯度提升的幅度”越大。以根节点为例，对属性集A中的所有属性（色泽、根蒂...触感），分别计算信息增益，取技术分享图片来划分根节点数据集。

　　下面，演示引例中决策树形成的过程：

技术分享图片

　　第一步：

　　显然，|Y|=2。在决策树开始学习是，根节点包含D中所有样例，其中正例占p₁=8/17，反例占p₂=9/17。于是根节点的信息熵为：

技术分享图片

　　第二步：

　　计算使用属性集合{色泽，根蒂，敲声......}中的哪个属性进行数据集划分可以带来最高的信息增益。

　　先计算“色泽”：

　　根据色泽可以将数据集D分为3个子集：

　　D¹包含{1,4,6,10,13,17}（正例p₁=3/6，反例占p₂=3/6）、D²包含{2,3,7,8,9,15}（正例p₁=4/6，反例占p₂=2/6）、D³包含{5,11,12,14,16}（正例p₁=1/5，反例占p₂=4/5）.

　　求每个节点的信息熵：

技术分享图片

　　计算使用“色泽”划分数据集后的信息增益：

技术分享图片

　　类似的，计算出使用其他属性划分数据集后的信息增益：

技术分享图片

　　显然，选择“纹理”划分后信息增益最大，于是，通过“纹理”划分数据集，各分支节点包含样例子集的情况是：

技术分享图片

　　第三步：

　　在每个子节点上递归执行相同的算法，便可得到决策树，如下：

技术分享图片

使用C4.5算法生成决策树

　　实际上，信息增益准则对可取值数目较多的属性有所偏好（这种偏好是不好的，他会妨碍我们在节点上找到最优的划分特征，最终导致建立的决策树模型复杂、额外增加计算量。说到底就是这是基于“信息增益”选择特征的缺陷），为减少这种偏好的影响，C4.5算法不直接采用信息增益，而是使用“信息增益率”来选择最优划分特征。信息增益率定义为：

技术分享图片