决策树之C4.5算法学习

时间：2017-06-26 21:22:20 阅读：255 评论：0 收藏：0 [点我收藏+]

标签：water out iss ping 剪枝挖掘 fill 带来分支

决策树<Decision Tree>是一种预測模型，它由决策节点，分支和叶节点三个部分组成。

决策节点代表一个样本測试，通常代表待分类样本的某个属性，在该属性上的不同測试结果代表一个分支；分支表示某个决策节点的不同取值。每一个叶节点代表一种可能的分类结果。

使用训练集对决策树算法进行训练，得到一个决策树模型。利用模型对未知样本（类别未知）的类别推断时。从决策树根节点開始，从上到下搜索，直到沿某分支到达叶节点，叶节点的类别标签就是该未知样本的类别。

网上有个样例能够非常形象的说明利用决策树决策的过程（母亲给女儿选对象的过程）。例如以下图所看到的：

技术分享

女儿：多大年纪了？
母亲：26。
女儿：长的帅不帅？
母亲：挺帅的。

女儿：收入高不？
母亲：不算非常高。中等情况。
女儿：是公务员不？
母亲：是，在税务局上班呢。
女儿：那好，我去见见。

再看一个样例：数据集例如以下图所看到的，共同拥有14个样本，每一个样本有4个属性，分别表示天气，温度。湿度，是否刮风。最后一列代表分类结果，能够理解为是否适合出去郊游(play)。

技术分享

以下是利用上面样本构建的决策树：

技术分享

依据构建的模型，当再来一个样本<outlook = rainy, temperature = cool,humidity = normal windy = true>那么我们就能够从根节点開始向下搜索最后得到：no play。

细致思考下，这有点类似FP-Tree算法中的构造树过程。可是绝不一样。其实，同样的数据集，我们能够构建非常多棵决策树，也不一定以outlook 作为根节点。FP-Tree仅仅是单纯将全部样本信息存储到一个树上。而决策树显然有一个选取节点属性进行分类的过程。

那么问题来了？该怎样选取属性作为分类属性，将样本分为更小的子集？什么时候结束终止决策树的增长，使构建的决策树既对训练样本准确分类。并且对于未知样本（測试样本）也可以准确预測，可能的策略是全部的样本都属于同一类别或全部样本属性值都相等。

不同的决策树算法採用的策略不同，以下主要介绍C4.5 算法，主要学习C4.5选取节点划分子集的策略。

C4.5算法是由澳大利亚悉尼大学Ross Quinlan教授在1993年基于ID3算法的改进提出的，它可以处理连续型属性或离散型属性的数据；可以处理具有缺失值的属性数据；使用信息增益率而不是信息增益作为决策树的属性选择标准；对生成枝剪枝。减少过拟合。

例如以下为决策树算法框架：

TreeGrowth(E, F)//E--训练集  F—属性集
   if stopping_cond(E, F) = true then     //达到停止分裂条件（子集全部样本同为一类或其它）
      leaf = createNode()                 //构建叶子结点
      leaf.label = Classify(E)            //叶子结点类别标签
      return leaf
   else<span style="white-space:pre">					
      root = createNode()<span style="white-space:pre">		//创建结点
      root.test_cond = find_best_split(E, F)    确定选择哪个属性作为划分更小子集//
      令 V = {v | v是root.test_cond 的一个可能的输出}
      for each v  V do
         Ev = {e | root.test_cond(e)  = v and e  E}
         child = TreeGrowth(Ev, F)
         //加入child为root的子节点，并将边(root——>child)标记为v
       end for
   end if
   return root

主要过程：首先用根节点代表一个给定的数据集；然后从根节点開始（包含根节点）在每一个节点上选择一个属性，使结点数据集划分（一棵树分裂为几棵树）为更小的子集(子树)；直到使用某个属性。其子集中全部样本都属于一个类别。才停止分裂。

而当中节点怎样选择属性。正是C4.5要做的。

前面已经提到过：C4.5 使用信息增益率而不是信息增益作为决策树的属性选择标准。以下从熵開始逐步解释：

熵：信息论中对熵的解释。熵确定了要编码集合S中随意成员的分类所须要的最少二进制位数

技术分享