标签:基础知识 机器学习算法 无法 评价 模型 设定 wrapper back splay
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。特征选择是特种工程的重要组成部分,在现实任务中,获得数据之后通常先进性特征选择,用相关特征训练学习器。
特征选择的概念
特征选择的原因
1.降低学习难度
2.减轻维度灾难
3.减少计算和存储开销
4.提高模型的可解释性
特征选择的过程
生成一个“候选子集”,评价候选子集的好坏,基于评价结果生成下一个“候选子集“,再评价候选子集的好坏......直至无法找到更好的候选子集为止。特征选择的关键环节:如何根据评价结果生成下一个候选特征子集?(子集搜索问题)如何评价候选特征子集的好坏?(子集评价问题)
(1)子集搜索问题
通过贪心策略解决子集搜索问题,三种常见的策略:
(2)子集评价问题
通过计算候选子集的信息增益,评价候选子集的好坏。信息增益越大,则候选子集包含的的有助于分类的信息越多。信息增益是子集评价的准则之一,其他能判断划分差异的机制均能够用于特征子集评价。
特征选择方法之决策树
特征选择的方法--过滤式(filter)、包裹式(wrapper)、嵌入式 (embedded)
标签:基础知识 机器学习算法 无法 评价 模型 设定 wrapper back splay
原文地址:https://www.cnblogs.com/wanglei5205/p/8973614.html