fromsklearnimportpreprocessingimportnumpyasnpX=[[1,2],[np.nan,4],[2,6]]y=[[np.nan,4],[1,3],[2,4]]imp=preprocessing.Imputer(missing_values=‘Nan‘,strategy=‘mean‘)imp.fit(X)print(imp.transform(X))print(i
分类:
其他好文 时间:
2018-10-09 00:45:04
阅读次数:
517
1. 首先导入数据 数据长这个样子: 3. 统一格式,去掉后缀 4. 查看一下UserInfo_2为非缺失值时的情况 输出如下: 可以看到,在UserInfo_2为非缺失值时,其他数据有不同程度缺失 4. 我们以UserInfo_2填充UserInfo_4 5. 统一格式,去掉省份变量后缀 6. 格 ...
分类:
编程语言 时间:
2018-10-07 12:55:57
阅读次数:
383
目录 1. 数据探索的步骤和准备 2. 缺失值处理 为什么需要处理缺失值 Why data has missing values? 缺失值处理的技术 3. 异常值检测和处理 What is an outlier? What are the types of outliers? What are th ...
分类:
其他好文 时间:
2018-10-05 22:34:39
阅读次数:
260
1.创建带有缺失值的数据库: 查看数据内容: 2.通常情况下删除行,使用参数axis = 0,删除列的参数axis = 1,通常不会这么做,那样会删除一个变量。 删除后结果: ...
分类:
其他好文 时间:
2018-09-28 20:49:46
阅读次数:
152
数据挖掘流程: (一)数据读取: 读取数据,并进行展示 统计数据各项指标 明确数据规模与要完成任务 (二)特征理解分析 单特征分析,逐个变量分析其对结果的影响 多变量统计分析,综合考虑多种情况影响 统计绘图得出结论 (三)数据清洗与预处理 对缺失值进行填充 特征标准化/归一化 筛选有价值的特征 分析 ...
分类:
其他好文 时间:
2018-09-27 00:12:50
阅读次数:
202
选择某些列 选择某些列和行 添加新的列 更改某一列的值 补全缺失值 ...
分类:
其他好文 时间:
2018-09-19 10:18:13
阅读次数:
589
这里利用ben的项目(https://github.com/ben519/DataWrangling/blob/master/Python/README.md),在此基础上增添了一些内容,来演示数据清洗的主要工作。 以下是一份简单的交易数据,包括交易单号,交易日期,产品序号,交易数量,单价,总价。 ...
分类:
其他好文 时间:
2018-09-18 19:15:34
阅读次数:
132
一:创建 1.通过Numpy数组创建 2.属性查看 3.一维数组创建(与numpy的创建一样) 4.通过字典创建 二:应用Numpy数组运算 1.获取值 numpy的数组运算,在Series中都被保留、 2.运算 三:Series缺失值检测 1.isnull与notnull 返回布尔类型的Serie ...
分类:
其他好文 时间:
2018-09-15 23:24:14
阅读次数:
198
引言 在这篇文章中,我们将探讨决策树模型的最重要参数,以及它们如何防止过度拟合和欠拟合,并且将尽可能少地进行特征工程。我们将使用来自kaggle的泰坦尼克号数据。 导入数据 查看缺失值 把Cabin’, ‘Name’ and ‘Ticket’移除,并且填充缺失值,并处理分类型变量。 25%用作测试集 ...
分类:
其他好文 时间:
2018-09-14 01:04:26
阅读次数:
290
输出: 输出: 输出: 输出: 输出: 输出: 输出: ...
分类:
其他好文 时间:
2018-09-06 23:59:21
阅读次数:
613