码迷,mamicode.com
首页 > 其他好文 > 详细

决策树的理解

时间:2017-10-19 09:23:11      阅读:126      评论:0      收藏:0      [点我收藏+]

标签:决策树的理解

  1. 决策树的分类速度快

    决策树有个步骤:特征选择,决策树生成,和决策树的修剪。

  2. 特许选择:在于选取对训练数据具有分类能力的特征,这样可以提高决策树学习的效率。如果利用一个特征进行分类的结果与随机分类的结果没有很大差别,则称这个特征是没有分类能力的。经验上任掉这些的特征对决策树学习的精度影响。

  3. 通常特征选择的准则是信息增益,或信息增益比。

    在学习信息增益的时候,首先是要了解一个概念:熵(entropy)是表示随机变量不确定的度量,

    信息越少,越是不确定,熵也就会越大。熵的公式为H(x)=-sum(pi*logpi)(i=1,2....n)

    熵的取值只依赖于x的分布,并不是x越大,熵就越大,等。

    信息增益 g(D,A)特征A对训练集D的信息增益==H(D)-H(D/A)之差。又称互信息。


信息增益存在一定的问题,往往偏向于选择取值较多的特征的问题

后人又提出信息增益比:  gr(D,A)=g(D,A)/Ha(D)意思就是A在特征D上的信息增益比上A的信息熵。

ID3,C4.5算法的生成不再这讲

决策树生成算法递归地产生决策树,直到不能继续下去为止。模型复杂,这样产生的树往往对训练数据的分类很正确,但是往往会出现过拟合现象,降低模型复杂度,就是对决策树进行剪枝。

CART回归树。

本文出自 “简答生活” 博客,谢绝转载!

决策树的理解

标签:决策树的理解

原文地址:http://1464490021.blog.51cto.com/4467028/1974060

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!