数据挖掘之特征选择

时间：2017-05-02 17:24:41 阅读：287 评论：0 收藏：0 [点我收藏+]

1、去掉取值变化小的特征。

如某个特征取值为0，1，在样本中存在95%的取值为1，那么这个特征的作用不大

2、单变量特征的选择。

Pearson相关系数：权衡的是变量之间的线性相关性。它要求两个变量的变化是单调的，如y1=x和y2=x^2,Pearson系数为0，但其实两者并不是独立的。取值方位为：[-1,1]，且可表征更加丰富的关系。负数表示负相关，正数表示正相关，0表示独立

距离相关系数：可以克服Pearson相关系数的弱点，但其计算速度没有Pearson快

基于学习模型的特征排序：直接使用你要用的机器学习算法，针对每个独立的特征和响应变量建立预测模型。对于非线性的，多采用树的方法。树的深度越深，则容易产过拟合。有些机器学习模型本身就对特征进行打分的机制(属于Wrapper)，如回归模型、SVM、决策树、随机森林等。

特征越独立，模型训练的结果也会越来越好。

3、线性模型和正则化

越是重要的特征在模型中对应的系数就越大，不重要的特征系数接近0.

正则化就是把额外的约束或惩罚项加到已有的模型（损失函数）上，以防止过拟合并提高泛化能力。即损失函数由原来的E（x,y）变为E(X,Y)+alpha||W||

L1正则化/Lasso：惩罚项系数是1次，由于正则项非零，则是的那些弱特征所对应的系数变成0，因此正则化往往会使学到的模型很稀疏，这个特点使得L1正则化成为一种很好的特征选择方法。

L2正抓/Ridge regression：惩罚项系数是2次方，它会使得系数的取值变得均匀。

随机森林：准确率高、鲁棒性好、易于使用。
这里特征得分实际上采用的是 Gini Importance 。使用基于不纯度的方法的时候，要记住：
1、这种方法存在偏向，对具有更多类别的变量会更有利；
2、对于存在关联的多个特征，其中任意一个都可以作为指示器（优秀的特征），并且一旦某个特征被选择之后，其他特征的重要度就会急
剧下降，因为不纯度已经被选中的那个特征降下来了，其他的特征就很难再降低那么多不纯度了，这样一来，只有先被选中的那个特征重要度很高，其他的关联特征重要度往往较低。在理解数据时，这就会造成误解，导致错误的认为先被选中的特征是很重要的，而其余的特征是不重要的，但实际上这些特征对响应变量的作用确实非常接近的（这跟Lasso是很像的）。特征随机选择方法稍微缓解了这个问题，但总的来说并没有完全解决。

正则化的线性模型对于特征理解和特征选择来说是非常强大的工具。L1正则化能够生成稀疏的模型，对于选择特征子集来说非常有用；相比起L1正则化，L2正则化的表现更加稳定，由于有用的特征往往对应系数非零，因此L2正则化对于数据的理解来说很合适。由于响应变量和特征之间往往是非线性关系，可以采用basis expansion的方式将特征转换到一个更加合适的空间当中，在此基础上再考虑运用简单的线性模型。

随机森林是一种非常流行的特征选择方法，它易于使用，一般不需要feature engineering、调参等繁琐的步骤，并且很多工具包都提供了平均不纯度下降方法。它的两个主要问题，1是重要的特征有可能得分很低（关联特征问题），2是这种方法对特征变量类别多的特征越有利（偏向问题）。尽管如此，这种方法仍然非常值得在你的应用中试一试

数据挖掘之特征选择

标签：color 响应并且数据挖掘 nbsp 排序 imp 取值特征

原文地址：http://www.cnblogs.com/liang2713020/p/6797078.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行