CART树: 该树的生成就是递归的构建二叉决策树的过程,对回归树用平方误差最小化准则,对分类树用gini指数最小化准则,进行特征选择,生成二叉树。 (1)回归树 假设X和Y分别为输入和输出变量,Y为连续变量,给定数据集D={(x1,y1),(x2,y2),...(xn,yn)} 假设输入空间划分为M ...
分类:
其他好文 时间:
2017-12-04 20:35:02
阅读次数:
115
目录 什么是决策树(Decision Tree) 特征选择 使用ID3算法生成决策树 使用C4.5算法生成决策树 使用CART算法生成决策树 预剪枝和后剪枝 应用:遇到连续与缺失值怎么办? 多变量决策树 Python代码(sklearn库) 什么是决策树(Decision Tree) 引例 现有训练 ...
分类:
其他好文 时间:
2017-12-02 20:21:31
阅读次数:
338
http://cwiki.apachecn.org/pages/viewpage.action?pageId=10814137 该sklearn.feature_extraction模块可用于从包含文本和图像等格式的数据集中提取机器学习算法支持的格式的特征。 注意: 特征提取与特征选择非常不同:前者 ...
分类:
其他好文 时间:
2017-11-08 13:24:54
阅读次数:
120
在对数据进行统计分析之前,应该先查看数据的特征,然后根据其特征选择分析方法。 很多统计假设方法要求数据是符合正态分布的和方差齐性。 1.数据的正态分布验证: 夏皮罗-威尔克(Shapiro-Wilk)检验法,适用于3 < 样本数< 5000 时的正态性检验。 2.方差齐性检验 Bartlett检验 ...
分类:
其他好文 时间:
2017-11-06 12:37:58
阅读次数:
178
决策树的分类速度快决策树有个步骤:特征选择,决策树生成,和决策树的修剪。特许选择:在于选取对训练数据具有分类能力的特征,这样可以提高决策树学习的效率。如果利用一个特征进行分类的结果与随机分类的结果没有很大差别,则称这个特征是没有分类能力的。经验上任掉这些的..
分类:
其他好文 时间:
2017-10-19 09:23:11
阅读次数:
126
不需要对特征进行归一化或标准化处;能够自动进行特征选择;可以分布式并行计算。 XGBOOST框架是对GBDT的优化设计,它的优点主要有 ...
分类:
其他好文 时间:
2017-10-18 10:08:41
阅读次数:
117
随机森林 用法: 1. 样本的相似度,认为在一个叶子节点的两个样本是相似的,来计算样本相似度矩阵。 2. 特征选择:修改节点的特征选择,看预测的结果有没有显著变化,有的话,说明被替换的特征比较重要,反之,不重要。 3. Isolation Forest: 随机选择特征,随机选择分割点生成一定深度的决 ...
分类:
其他好文 时间:
2017-10-17 10:03:43
阅读次数:
139
1、特征选择 特征选择是一种及其重要的数据预处理方法。假设你需要处理一个监督学习问题,样本的特征数非常大(甚至),但是可能仅仅有少部分特征会和对结果产生影响。甚至是简单的线性分类,如果样本特征数超过了n,但假设函数的VC维确仍然是O(n),那么,除非大大扩展训练集的数量,否则即会带来过拟合的问题。在 ...
分类:
其他好文 时间:
2017-10-10 23:18:17
阅读次数:
161
数据预处理的常用流程: 1)去除唯一属性 2)处理缺失值 3)属性编码 4)数据标准化、正则化 5)特征选择 6)主成分分析 (1)去除唯一属性 在获取的数据集中,经常会遇到唯一属性。这些属性通常是添加的一些di属性,如存放在数据库中自增的主键。这些属性并不能刻画样本自身的分布规律,所以只需要简单地 ...
分类:
编程语言 时间:
2017-09-29 00:38:11
阅读次数:
1370
-1. TF-IDF的误区TF-IDF可以有效评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。因为它综合表征了该词在文档中的重要程度和文档区分度。但在文本分类中单纯使用TF-IDF来判断一个特征是否有区分度是不够的。1)它没有考虑特征词在类间的分布。也就是说该选择的特征应该在某类出现 ...
分类:
其他好文 时间:
2017-09-27 13:32:39
阅读次数:
192