在机器学习算法(如二叉树)、特征选择(互信息)中经常用到熵的概念,信息熵的概念以及介绍网上有很多,这里主要做一个直观的介绍。 1. 信息的度量 2. 信息熵 一、 信息量 常常把消息中有意义的内容成为信息。我们常常说,某人说的某句话信息量很大,具体在信息论中,其实指的是他说的这句话消除的不确定性多。 ...
分类:
其他好文 时间:
2017-05-17 00:43:49
阅读次数:
244
在机器学习中,特征选择主要有两个目的: 1. 减少特征数量,提高训练速度 2. 减少噪声特征从而提高模型在测试集上的准确率。一些噪声特征会导致模型出现错误的泛化,容易产生overfitting。 常用的特征选择算法有很多,这里着重介绍其中两个:卡方检验和互信息 一、卡方检验 1. 卡方分布 在说卡方 ...
分类:
其他好文 时间:
2017-05-15 19:51:52
阅读次数:
1154
声明:本文主要是基于网上的材料做了文字编辑,原创部分甚少。參考资料见最后。 隐马尔可夫模型(Hidden Markov Model。HMM),最大熵马尔可夫模型(Maximum Entropy Markov Model,MEMM)以及条件随机场(Conditional Random Field,CR ...
分类:
其他好文 时间:
2017-05-13 20:58:37
阅读次数:
226
Feature Selection 1. Filter: Scoring each feature, filter out good features. 1.1 Chi-Square 卡方检验 1.2 Correlation 相关检验 1.3 Information Gain 信息获取 2. Wra ...
分类:
其他好文 时间:
2017-05-12 13:16:06
阅读次数:
190
1.CART分类树的特征选择 分类问题中,假设有K个类,样本点属于第k类的概率为,则概率分布的基尼指数定义为: 如果,集合D根据特征A是否取某一可能值a被分割成和,在特征A的条件下,集合D的基尼指数定义为: 基尼指数代表了模型的不纯度,基尼指数越小,不纯度越小,特征越好. 2.CART分类树的生成算 ...
分类:
其他好文 时间:
2017-05-10 11:15:23
阅读次数:
276
1、去掉取值变化小的特征。 如某个特征取值为0,1,在样本中存在95%的取值为1,那么这个特征的作用不大 2、单变量特征的选择。 Pearson相关系数:权衡的是变量之间的线性相关性。它要求两个变量的变化是单调的,如y1=x和y2=x^2,Pearson系数为0,但其实两者并不是独立的。取值方位为: ...
分类:
其他好文 时间:
2017-05-02 17:24:41
阅读次数:
287
十分钟搞定pandas http://www.cnblogs.com/chaosimple/p/4153083.html XGBoost模型调参、 http://www.2cto.com/kf/201607/528771.html 交叉验证及其用于参数选择、模型选择、特征选择的例子 http://b ...
分类:
编程语言 时间:
2017-04-25 17:08:50
阅读次数:
229
信息增益是决策树ID3算法中重要的概念,同时使用信息增益的手段也用来做特征工程中的特征选择,本文介绍了一种使用SQL中汇总函数cube来计算特征信息增益方法。 ...
分类:
数据库 时间:
2017-04-20 09:56:38
阅读次数:
246
数据预处理和特征选择是数据挖掘与机器学习中关注的重要问题,坊间常说:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。特征工程就是将原始数据转化为有用的特征,更好的表示预测模型处理的实...
分类:
其他好文 时间:
2017-04-17 21:16:16
阅读次数:
358
本文简单整理了以下内容: (一)维数灾难 (二)特征提取——线性方法 1. 主成分分析PCA 2. 独立成分分析ICA 3. 线性判别分析LDA (一)维数灾难(Curse of dimensionality) 维数灾难就是说当样本的维数增加时,若要保持与低维情形下相同的样本密度,所需要的样本数指数 ...
分类:
其他好文 时间:
2017-04-13 17:02:57
阅读次数:
297