AutoML 即通过自动化的机器学习实现人工智能模型的快速构建,它可以简化机器学习流程,方便更多人利用人工智能技术。近日,软件行业巨头 Salesforce 开源了其 AutoML 库 TransmogrifAI。Salesforce Einstein 数据科学高级总监 Shubha Nabar 在 ...
分类:
其他好文 时间:
2018-10-15 12:02:46
阅读次数:
103
MLlib 1.MLlib介绍 1)MLlib特点 2)哪些算法 3)阅读官方文档 MLlib提供了哪些: 算法 特征工程 管道 持久化 2.MLlib数据格式 1)本地向量 2)标签数据 3)本地矩阵 4)分布式矩阵 5)分布式数据集:RDD,DATASET,DATAFRAME ...
分类:
其他好文 时间:
2018-10-13 19:58:07
阅读次数:
128
如何选择特征 根据是否发散及是否相关来选择 方差选择法 先计算各个特征的方差,根据阈值,选择方差大于阈值的特征 方差过滤使用到的是VarianceThreshold类,该类有个参数threshold,该值为最小方差的阈值,然后使用fit_transform进行特征值过滤 相关系数法 先计算各个特征对 ...
分类:
编程语言 时间:
2018-10-06 22:11:12
阅读次数:
335
概念: 特征工程:本质上是一项工程活动,他目的是最大限度地从原始数据中提取特征以供算法和模型使用 特征工程的重要性:特征越好,灵活性越强、模型越简单、性能越出色。 特征工程包括:数据处理、特征选择、维度压缩 量纲不一: 就是单位,特征的单位不一致,不能放在一起比较 通过:0-1标准化、Z标准化、No ...
分类:
编程语言 时间:
2018-10-06 20:35:36
阅读次数:
234
特征工程是机器学习当中很重要的部分,可以帮助我们设计、创建新特征,以便模型从中提取重要相关性。本文将记录并持续更新相关特征工程的工具包介绍,包括自动模型选择和超参数调优等各方面。 · Featuretools Featuretools 是一个开源的Python 库,用于自动化特征工程。自动特征工程能 ...
分类:
其他好文 时间:
2018-09-27 22:17:06
阅读次数:
431
机器学习的大致流程如上图所示,x表示输入变量,表示影响预测结果y的特征(features),强特征对结果影响比较大,弱特征对结果影响较小,甚至有些特征根本对结果无影响,所以衍生出来特征工程和特征选择这两个对结果非常重要的分支。h表示训练的模型,将训练数据灌入model,使用学习算法,训练出模型的参数 ...
分类:
其他好文 时间:
2018-09-26 14:53:49
阅读次数:
112
特征工程是机器学习中不可或缺的一部分,在机器学习领域中占有非常重要的地位。 特征工程,是指用一系列工程化的方式从原始数据中筛选出更好的数据特征,以提升模型的训练效果。业内有一句广为流传的话是:数据和特征决定了机器学习的上限,而模型和算法是在逼近这个上限而已。由此可见,好的数据和特征是模型和算法发挥更 ...
分类:
其他好文 时间:
2018-09-25 17:59:44
阅读次数:
290
前言 模型的评估方法主要是针对有监督学习的。 数据集划分方法 我们在拿到数据的时候,数据的表现形式会呈现多种多样性,我们首先需要做的是把数据格式化,把数据处理成计算机可以认识的结构。处理数据的过程叫做特征工程,特征工程是一个在机器学习的过程中,非常重要的一个过程,特征工程做的好坏,会直接影响到最后的 ...
分类:
其他好文 时间:
2018-09-21 15:06:42
阅读次数:
178
二值化处理:将细粒度的度量转化成粗粒度的度量,使得特征的差异化更大。 特征多项式交互:捕获特征之间的相关性 数据分布倾斜的处理: log变化:log变化倾向于拉高那些落在较低的幅度范围内自变量的取值,压缩那些落在较高的幅度范围内自变量的取值,log变化能够稳定数据的方差,使数据的分布接近于正太分布并 ...
分类:
其他好文 时间:
2018-09-18 22:58:58
阅读次数:
282
在学习 "使用sklearn做单机特征工程" 这篇文章时,发现在计算互信息时 代码运行出错 原文部分如下: 3.1.4 互信息法 经典的互信息也是评价 定性自变量 对 定性因变量 的相关性的,互信息计算公式如下: 为了处理定量数据,最大信息系数法被提出,使用feature_selection库的Se ...