码迷,mamicode.com
首页 > 编程语言 > 详细

随机森林算法OOB_SCORE最佳特征选择

时间:2019-09-30 23:18:00      阅读:204      评论:0      收藏:0      [点我收藏+]

标签:排序   core   均值   测试   决策   number   str   交叉测试   efault   

Sklearn RandomForest算法(有监督学习),可以根据输入数据,选择最佳特征组合,减少特征冗余;

原理:由于随机决策树生成过程采用的Boostrap,所以在一棵树的生成过程并不会使用所有的样本,未使用的样本就叫(Out_of_bag)袋外样本,通过袋外样本,可以评估这个树的准确度,其他子树叶按这个原理评估,最后可以取平均值,即是随机森林算法的性能;

特征选择原理:因为袋外样本的存在,因此不需要进行十字交叉测试(节省时间),通过依次对每个特征赋予一个随机数,观察算法性能的变化,倘若变化大,则说明该特征重要,sklearn中会对每个特征赋予一个分数,分数越大,特征越重要,因此,可以根据特征重要性排序,然后选择最佳特征组合;

RandomForestClassifier(n_estimators=200,oob_score=True)

oob_score : bool (default=False) Whether to use out-of-bag samples to estimate the generalization accuracy.

oob_score:  bool(默认=False) 是否使用袋外样品进行估算 泛化精度。

随机森林算法OOB_SCORE最佳特征选择

标签:排序   core   均值   测试   决策   number   str   交叉测试   efault   

原文地址:https://www.cnblogs.com/dinol/p/11614352.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!