http://blog.csdn.net/wangyibo0201/article/details/51705966 局部异常因子算法-Local Outlier Factor(LOF) 在数据挖掘方面,经常需要在做特征工程和模型训练之前对数据进行清洗,剔除无效数据和异常数据。异常检测也是数据挖掘的 ...
分类:
编程语言 时间:
2017-06-06 13:07:14
阅读次数:
546
1GBDT和LR融合 LR模型是线性的,处理能力有限,所以要想处理大规模问题,需要大量人力进行特征工程,组合相似的特征,例如user和Ad维度的特征进行组合。 GDBT天然适合做特征提取,因为GBDT由回归树组成所以, 每棵回归树就是天然的有区分性的特征及组合特征,然后给LR模型训练,提高点击率预估 ...
分类:
其他好文 时间:
2017-05-07 00:11:05
阅读次数:
535
前言跳过废话,直接看正文文本分类任务是一个经久不衰的课题,其应用包括垃圾邮件检测、情感分析等。传统机器学习的做法是先进行特征工程,构建出特征向量后,再将特征向量输入各种分类模型(贝叶斯、SVM、神经网...
分类:
其他好文 时间:
2017-04-26 01:26:17
阅读次数:
480
转:http://www.cnblogs.com/jasonfreak/p/5448385.html 目录 1 特征工程是什么?2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 ...
分类:
其他好文 时间:
2017-04-20 19:36:03
阅读次数:
199
信息增益是决策树ID3算法中重要的概念,同时使用信息增益的手段也用来做特征工程中的特征选择,本文介绍了一种使用SQL中汇总函数cube来计算特征信息增益方法。 ...
分类:
数据库 时间:
2017-04-20 09:56:38
阅读次数:
246
数据预处理和特征选择是数据挖掘与机器学习中关注的重要问题,坊间常说:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。特征工程就是将原始数据转化为有用的特征,更好的表示预测模型处理的实...
分类:
其他好文 时间:
2017-04-17 21:16:16
阅读次数:
358
在机器学习和统计学中,特征选择 也被称为变量选择、属性选择 或变量子集选择 。它是指:为了构建模型而选择相关特征(即属性、指标)子集的过程。
在机器学习中,每个特征对于目标类别的影响并不相同,所以需要...
分类:
其他好文 时间:
2017-03-28 11:22:48
阅读次数:
1093
笔记︱范数正则化L0、L1、L2-岭回归&Lasso回归(稀疏与特征工程) 一、正则化背景 监督机器学习问题无非就是“minimizeyour error while regularizing your parameters”,也就是在规则化参数的同时最小化误差。最小化误差是为了让我们的模型拟合我们 ...
分类:
其他好文 时间:
2017-02-19 18:21:35
阅读次数:
403
特征工程中 很常见的一步,特征离散化。最优离散化问题是一个 NP-hard问题。所以所谓的离散化方法只是某种启发式,某种情况下及考量下最优的方法。 好处 1. 减少连续特征的个数,减少存储空间大小 2. 更容易被接受。人更容易接受离散的范围,而不是准确的数值。也就是更容易理解,使用和解释 3. 离散 ...
分类:
其他好文 时间:
2017-02-12 21:04:17
阅读次数:
155
【特征工程】特征选择与特征学习 特征选择(Feature Selection,FS)和特征抽取(Feature Extraction, FE)是特征工程(Feature Engineering)的两个重要的方面。 他们之间最大的区别就是是否生成新的属性。 FS仅仅对特征进行排序(Ranking)和选 ...
分类:
其他好文 时间:
2016-12-23 22:55:47
阅读次数:
300