我们在用python进行机器学习建模时,首先需要对数据进行预处理然后进行特征工程,在这些过程中,数据的格式可能会发生变化,前几天我遇到过的问题就是: 对数据进行标准化、归一化、方差过滤的时候数据都从DataFrame格式变为了array格式。 这样数据的列名就会消失,且进行特征选择之后列的数量也会发 ...
分类:
编程语言 时间:
2018-12-15 14:55:31
阅读次数:
266
逻辑回归,相对于线性回归是用来处理目标函数是离散数值的情况。它的映射函数和损失函数分别为: (1) (2) 使用梯度下降法进行求解,得到迭代公式: 逻辑回归的优缺点: 简单, 易于并行、速度快,需要复杂的特征工程, 输入特征需要离散化 SGD算法 对于如上LR的迭代公式来说,我们可以得到GD(Gra ...
分类:
其他好文 时间:
2018-12-14 13:00:31
阅读次数:
361
机器学习 特征工程 特征抽取 字典特征抽取 sklearn.feature_extraction.DictVectorizer 类DictVectorizer(sparse=True) 如果sparse=False 则返回列表 .fit_transform(X) X是字典或者包含字典的迭代器 返回s ...
分类:
其他好文 时间:
2018-12-11 01:42:02
阅读次数:
299
title: sklearn 特征工程之特征选择 date: 2016 11 25 22:49:24 categories: skearn tags: sklearn 抄袭/参考资料 "使用sklearn做单机特征工程" "sckearn中文" 周志华《机器学习》 当数据预处理完成后,我们需要选择有 ...
分类:
其他好文 时间:
2018-12-01 18:23:12
阅读次数:
400
本书介绍了实用机器学习的工作流程,主要从实用角度进行了描述,没有数学公式和推导。本书涵盖了数据收集与处理、模型构建、评价和优化、特征的识别、提取和选择技术、高级特征工程、数据可视化技术以及模型的部署和安装,结合3个真实案例全面、详细地介绍了整个机器学习流程,还介绍了机器学习流程的扩展和大数据应用。
分类:
其他好文 时间:
2018-11-25 20:17:36
阅读次数:
629
1. 前言 “数据决定了机器学习的上限,而算法只是尽可能逼近这个上限” ,这里的数据指的就是经过特征工程得到的数据。特征工程指的是把原始数据转变为模型的训练数据的过程,它的目的就是获取更好的训练数据特征,使得机器学习模型逼近这个上限。特征工程能使得模型的性能得到提升,有时甚至在简单的模型上也能取得不 ...
分类:
其他好文 时间:
2018-11-15 00:10:31
阅读次数:
253
特征工程(Feature Engineering) 特征工程其本质上是一项工程活动,它的目的是最大限度地从原始数据中提取特征以供算法和模型使用。 特征工程的重要性: 特征越好,灵活性越强 特征越好,模型越简单 特征越好,性能越出色 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限。特征工 ...
分类:
其他好文 时间:
2018-10-26 13:11:57
阅读次数:
204
特征工程是数据分析中最耗时间和精力的一部分工作,它不像算法和模型那样是确定的步骤,更多是工程上的经验和权衡。因此没有统一的方法。这里只是对一些常用的方法做一个总结。本文关注于特征选择部分。后面还有两篇会关注于特征表达和特征预处理。 1. 特征的来源 在做数据分析的时候,特征的来源一般有两块,一块是业 ...
分类:
其他好文 时间:
2018-10-26 10:45:05
阅读次数:
137
类别型特征 Onehot encoding 长度为K的数组上的一个K编码。 长度为K的数组上的一个K编码。 基本方法:与大多数线性算法一起使用 基本方法:与大多数线性算法一起使用 删除第一列可避免共线性 删除第一列可避免共线性 稀疏格式对内存友好 稀疏格式对内存友好 大多数当前实现都不能优雅地处理缺 ...
分类:
其他好文 时间:
2018-10-22 20:40:18
阅读次数:
818
特征工程指的是将原始数据转换为特征矢量。 机器学习模型通常期望样本表示为实数矢量。这种矢量的构建方法如下:为每个字段衍生特征,然后将它们全部连接到一起。 图1. 特征工程将原始数据映射到机器学习特征 映射数值 机器学习模型根据浮点值进行训练,因此整数和浮点原始数据不需要特殊编码。正如图2所示,将原始 ...
分类:
其他好文 时间:
2018-10-16 17:38:35
阅读次数:
173