本篇博文主要围绕Spark上的决策树来讲解,我将分为2部分来阐述这一块的知识。第一部分会介绍一些决策树的基本概念、Spark下决策树的表示与存储、结点分类信息的存储、结点的特征选择与分类;第二部分通过...
分类:
编程语言 时间:
2017-04-11 12:15:33
阅读次数:
429
特征选择和降维存在着联系,但是却不能把它们混为一谈。 先说说联系,当数据的维度很高时,经常伴随着数据样本稀疏、距离计算困难等问题,即所谓的“维数灾难”(curse of dimensionality)。而缓解维数灾难有两个重要的途径,也就是降维和特征选择,可以这么认为,特征选择和降维的目标都是降低数 ...
分类:
其他好文 时间:
2017-04-05 16:26:10
阅读次数:
289
决策树 决策树模型是一种树形结构,基于特征对实例进行分类或回归的过程。即根据某个特征把数据分划分到若干个子区域(子树),再对子区域递归划分,直到满足某个条件则停止划分并作为叶子节点,不满足条件则继续递归划分。 一个简单的决策树分类模型:红色框出的是特征。 决策树模型学习过程通常包3个步骤:特征选择、 ...
分类:
编程语言 时间:
2017-04-01 01:10:42
阅读次数:
256
在机器学习和统计学中,特征选择 也被称为变量选择、属性选择 或变量子集选择 。它是指:为了构建模型而选择相关特征(即属性、指标)子集的过程。
在机器学习中,每个特征对于目标类别的影响并不相同,所以需要...
分类:
其他好文 时间:
2017-03-28 11:22:48
阅读次数:
1093
特征选择常用算法综述 特征选择的一般过程: 1.生成子集:搜索特征子集,为评价函数提供特征子集 2.评价函数:评价特征子集的好坏 3.停止准则:与评价函数相关,一般是阈值,评价函数达到一定标准后就可停止搜索 4.验证过程:在验证数据集上验证选出来的特征子集的有效性 1.生成子集 搜索算法有 完全搜索 ...
分类:
其他好文 时间:
2017-03-09 15:23:58
阅读次数:
195
1.信息增益的定义,也就是互信息 2.信息增益的推导 由公式即可得到信息增益 信息增益存在偏向于选择取值较多的特征的问题,信息增益比可以对这一问题进行修正 3.信息增益比 4.基尼指数,基尼指数越大,样本集合的不确定性也就越大,与熵类似 5.ID3算法,使用信息增益作为特征选择准则,递归选择信息增益 ...
分类:
其他好文 时间:
2017-03-01 22:39:05
阅读次数:
192
转载︱案例 基于贪心算法的特征选择 转载︱案例 基于贪心算法的特征选择 用GA算法设计22个地点之间最短旅程-R语言实现 ———————————————————————————————————————————————————————— greedy Algorithm Feature Selecti ...
分类:
编程语言 时间:
2017-02-19 18:32:20
阅读次数:
264
数据清洗 不可信样本丢弃 缺省值极多的字段考虑不用 数据采样 下/上采样 保证样本均衡 特征处理 数值型 类别型 时间型 文本型 统计型 组合特征 特征选择 过滤型 sklearn.feature_selection.SelectKBest 包裹型 sklearn.feature_selection ...
分类:
其他好文 时间:
2017-02-17 00:01:57
阅读次数:
456
继续上节内容介绍学习理论,介绍模型选择算法,大纲内容为: 交叉验证 特征选择 回顾上节的偏差方差权衡现象,若选择过于简单的模型,偏差过高,可能会导致欠拟合;若选择过于复杂的模型,方差过高,可能会导致过拟合,同样模型的一般适用性不好。 模型复杂度:多项式的次数或参数的个数。 (1)尝试选择多项式的次数 ...
分类:
其他好文 时间:
2017-01-12 22:29:19
阅读次数:
246
1,词法分析 待续 2,文本分类 文本表示: 重点是贝叶斯模型:二项表示法和多项表示法。(向量维度为词库大小,一个是01,一个是频次)。模型重点在于化后验为先验。 还有其他模型:机器学习模型,分布式模型等等。 特征选择:重要的是TF-IDF。它的意思是一个词在单个文本中出现的次数越多,在其他文本中出 ...
分类:
其他好文 时间:
2017-01-03 07:50:11
阅读次数:
202