问题是这样的: 好凡需要做一个命名实体识别(序列标注)的任务,按照他以往的经验,用条件随机场就可以达到预期的指标,眼下他精心设计了10个特征。 问题一:由于实验室设备老旧,降低任务复杂度的工作非常有意义,那么他该如何选取最好是特征子集? 问题二:为了快速筛选特征,他用线性分类器(SVM)对候选的特征 ...
分类:
其他好文 时间:
2018-07-18 15:15:02
阅读次数:
202
项目地址:https://github.com/WillKoehrsen/feature selector 特征选择(feature selection)是查找和选择数据集中最有用特征的过程,是机器学习流程中的一大关键步骤。不必要的特征会降低训练速度、降低模型可解释性,并且最重要的是还会降低其在测试 ...
分类:
其他好文 时间:
2018-07-09 20:11:03
阅读次数:
3814
特征工程的整体思路: 1. 对于特征的理解、评估 2. 特征处理: 2.1 特征处理 2.1.1 特征清洗 清洗异常、采样 2.1.2 预处理 单特征情况:归一化、离散化、哑变量编码、缺失值填充等。数据变换例如log服从正态分布。 多特征情况: 降维:PCA、LDA(这个不太了解、待学习) 特征选择 ...
分类:
其他好文 时间:
2018-07-03 16:57:21
阅读次数:
187
过滤法:filter 4. 互信息:互信息值越大,说明该特征和输出值之间的相关性越大,越需要保留。在sklearn中,可以使用mutual_info_classif(分类)和mutual_info_regression(回归)来计算各个输入特征和输出值之间的互信息。 个人经验是,在没有什么思路的 时 ...
分类:
其他好文 时间:
2018-06-30 22:57:57
阅读次数:
200
1 Why? Reason1 Knowledge Discovery (about human beings limitaitons) Reason2 Cause of Dimensionality (维度灾难) (about ML algorithm itself) 所需的数据量会根据你所拥有的特 ...
分类:
其他好文 时间:
2018-06-24 13:00:23
阅读次数:
212
WeTest 导读 启动耗时自动化方案在关键帧识别时,常规的图像对比准确率很低。本文详细介绍了采用scikit-learn图片分类算法在启动耗时应用下的模型调优过程。在之后的续篇中将采用TensorFlow CNN、迁移学习等算法,给出对比识别效果 1、常规思路与困境 App启动、关键页面加载耗时是 ...
分类:
其他好文 时间:
2018-06-22 17:41:09
阅读次数:
221
树模型 应用场景:1.分类 2.回归 分类应用中的树模型等价于if-then规则的集合or定义在特征空间与类空间的条件概率分布,可解释性强 概念: 1. 熵:表示随机变量的不确定程度,其数值越大,则随机变量的不确定性也越大 2.条件熵:表示在已知随机变量X的条件下随机变量Y的不确定性,定义为X已知时 ...
分类:
其他好文 时间:
2018-06-15 12:58:10
阅读次数:
159
高维数据的聚类分析 高维聚类研究方向 高维数据聚类的难点在于: 1、适用于普通集合的聚类算法,在高维数据集合中效率极低 2、由于高维空间的稀疏性以及最近邻特性,高维的空间中基本不存在数据簇。 在高维聚类的研究中有如下几个研究重点: 1)维度约简,主要分为特征变换和特征选择两大类。前者是对特征空间的变 ...
分类:
其他好文 时间:
2018-06-10 18:33:32
阅读次数:
380
fromsklearn.feature_selectionimportRFEfromsklearn.linear_modelimportLinearRegression#LoadbostonhousingdatasetasanexampleX=np.array(train1[feature_use].fillna(-1))[1:train1.size,:]Y=np.array(train1[‘ta
分类:
其他好文 时间:
2018-06-07 10:27:49
阅读次数:
150
有一句话在业界广为流传:特征工程决定了模型的上界,调参决定模型能够有多逼近这个上界。 这里以sklearn为例讲讲特征工程。 一图概览特征工程 虽然说分了这么多部分,但特征工程最重要的部分还是特征处理,特征处理主要包含三个方面,特征预处理,特征选择和降维度。 数据预处理 数据预处理一方面把特征转为合 ...
分类:
其他好文 时间:
2018-06-05 13:29:25
阅读次数:
148