码迷,mamicode.com
首页 >  
搜索关键字:特征选择    ( 398个结果
特征选择方法总结
1、为什么要做特征选择 在有限的样本数目下,用大量的特征来设计分类器计算开销太大而且分类性能差。 2、特征选择的确切含义 将高维空间的样本通过映射或者是变换的方式转换到低维空间,达到降维的目的,然后通过特征选取删选掉冗余和不相关的特征来进一步降维。 3、特征选取的原则 获取尽可能小的特征子集,不显著降低分类精度、不影响类分布以及特征子集应具有稳定适应性强等特点 4、特征选择需要考虑的问...
分类:其他好文   时间:2016-04-22 19:38:34    阅读次数:197
[特征选择] DIscover Feature Engineering, How to Engineer Features and How to Get Good at It 翻译
本文是对Jason Brownlee的关于特征工程的翻译,http://machinelearningmastery.com/discover-feature-engineering-how-to-engineer-features-and-how-to-get-good-at-it/ ...
分类:其他好文   时间:2016-03-30 07:05:14    阅读次数:301
决策树(二)
5.3决策树的生成 5.3.1 ID3算法          ID3算法的核心实在决策树个国际电商应用信息增益准则选择特征,递归的构建决策树。          具体方法:从根结点(root node)开始,对接点计算所有可能的特征信息增益,选择信息增益最大的特征最为节点的的特征(注意:信息增益表示得知特征X的信息而使得类Y的信息不确定性减少的程度,而我们进行特征选择在于选取对训练数...
分类:其他好文   时间:2016-03-29 13:05:24    阅读次数:217
(7)文本挖掘(四)——特征选择
特征选择指的是按照一定的规则从原来的特征集合中选择出一小部分最为有效的特征。通过特征选择,一些和任务无关或是冗余的特征被删除,从而提高数据处理的效率。 文本数据的特征选择研究的重点就是用来衡量单词重要性的评估函数,其过程就是首先根据这个评估函数来给每一个单词计算出一个重要性的值,然后根据预先设定好的阈值来选择出所有其值超过这个阈值的单词。 根据特征选择过程与后续数据挖掘算法的关联,特征选择方法可...
分类:其他好文   时间:2016-03-29 12:57:37    阅读次数:289
(4)文本挖掘(一)——准备文本读写及对Map操作的工具类
文本挖掘是一个对具有丰富语义的文本进行分析,从而理解其所包含的内容和意义的过程。文本挖掘包含分词、文本表示、文本特征选择、文本分类、文本聚类、文档自动摘要等方面的内容。文本挖掘的具体流程图可下图所示: 我的项目是以复旦大学中文语料库和路透社英文语料库为数据集的,都是有类别的两层目录文本集。 不管你要做什么,你首先都要先读取文本,为了方便后面的操作,我写了几个工具类,这里先将文本读取Reade...
分类:其他好文   时间:2016-03-29 10:52:32    阅读次数:291
机器学习:特征工程
特征选择直接影响模型灵活性、性能及是否简洁。好特征的灵活性在于它允许你选择不复杂的模型,同时运行速度也更快,也更容易理解和维护。 特征选择 四个过程:产生过程,评价函数,停止准则,验证过程。 目的:过滤特征集合中不重要特征,挑选一组最具统计意义的特征子集,从而达到降维的效果。 选择标准:特征项和类别项之间的相关性(特征重要性)。 - - -搜索特征子空间的...
分类:其他好文   时间:2016-03-28 00:23:49    阅读次数:693
技术积累--常用的文本分类的特征选择算法
常采用特征选择方法。常见的六种特征选择方法: 1)DF(Document Frequency) 文档频率 DF:统计特征词出现的文档数量,用来衡量某个特征词的重要性 2)MI(Mutual Information) 互信息法 互信息法用于衡量特征词与文档类别直接的信息量。 如果某个特征词的频率很低,
分类:编程语言   时间:2016-03-22 00:38:56    阅读次数:160
机器学习中的规则化
最近重新看了《机器学习实战》第八章:预测数值型数据:回归。发现了一个以前没有重视的问题,规则化(regularization),通过网上各种查找资料,发现规则化对数据的特征选择,防止回归模型过拟合都有非常大的帮助。 简单的讲,规则化就是给损失函数(cost function)多项式再加上一项,使得训
分类:其他好文   时间:2016-03-15 00:36:58    阅读次数:215
降维中的特征选择
在数据挖掘过程中,高维数据是非常棘手的研究对象。特别是在文本挖掘、图像处理和基因数据分析中,维度过高使很多学习器无法工作或效率降低,所以降维也是数据预处理过程的一项必要任务。降维大致有两大类别,一类是从原始维度中提取新的维度,例如主成分分析或因子分析,再或者是奇异值分解或是多维标度分析。另一类是从原
分类:其他好文   时间:2016-03-09 23:55:11    阅读次数:242
机器学习项目中常见的误区
机器学习流程,摘自Ben Hamner的《机器学习小精灵》 这个流程包括如下9步: 以一个行业问题开始 源数据 切分数据 选择一个评价标准 进行特征提取 训练模型 特征选择 模型选择 生产系统
分类:其他好文   时间:2016-02-27 15:10:40    阅读次数:204
398条   上一页 1 ... 30 31 32 33 34 ... 40 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!