数据文件的重置结构 横向结构(个案组),纵向结构(变量组) 数据结构不符合分析方法的时候就需要重组 选定变量重组为个案 数据-重构 重构数据向导 选定变量重组为个案? 将选定个案重组构位变量 转置所有数据 变量组数目:一个(如w1,w2,w3)? 多个(如p1,p2,p3,w1,w2,w3) 选择变 ...
分类:
其他好文 时间:
2019-10-24 19:45:23
阅读次数:
74
数据处理 缺失值处理 数据缺失主要包括记录缺失和字段信息缺失等情况,其对数据分析会有较大影响,导致结果不确定性更加显著 1.判断是否有缺失值 2.删除缺失值 3.填充、替换缺失值 4.缺失值插补 异常值处理 异常值是指样本中的个别值,其数值明显偏离其余的观测值。异常值也称离群点,异常值的分析也称为离 ...
分类:
编程语言 时间:
2019-10-09 12:24:50
阅读次数:
106
5.2 基本功能 (1)重新索引 - 方法reindex 方法reindex是pandas对象地一个重要方法,其作用是:创建一个新对象,它地数据符合新地索引。 如,对下面的Series数据按新索引进行重排: 根据新索引重排后的结果如下,当某个索引值不存在,就会在原来的基础上引入缺失值NaN: 利用r ...
分类:
编程语言 时间:
2019-10-07 21:24:56
阅读次数:
141
创建和使用数据库 在创建和使用数据库之前,先介绍几个命令 一,创建和选择数据库 二,创建表 创建数据库之后,我们可以看看它里面有什么 更难的部分是决定数据库的结构应该是什么:您需要哪些表以及每个表中应该包含哪些列。 您想要一张包含每只宠物记录的表格。这可以称为pet表格,它应该包含每个动物名称的最低 ...
分类:
数据库 时间:
2019-10-06 20:33:29
阅读次数:
165
8. Dataset (DataFrame) 的基础操作 8.1. 有类型操作 8.2. 无类型转换 8.5. Column 对象 9. 缺失值处理 10. 聚合 11. 连接 8.1. 有类型操作 8.2. 无类型转换 8.5. Column 对象 8. Dataset (DataFrame) 的 ...
分类:
数据库 时间:
2019-10-06 00:19:23
阅读次数:
116
数据清洗一是为了解决数据质量问题,二是让数据更适合做挖掘 数值类数据 缺失值 在处理缺失值之前,首先要理解为什么数据会有缺失。 丢弃 直接丢弃含有缺失值的行或者列 适用情况 1. 错误导致的数据缺失(GSP中跑步速度的缺失) 2. 要建模预测的数据列有数据缺失 3. 无用数据(调查车辆的价格,要排除 ...
分类:
其他好文 时间:
2019-09-30 21:47:37
阅读次数:
107
# pandas 数据预处理 基于numpy # 读取csv文件(逗号隔开的文件) import pandas,os,numpy as np path = r"D:\desktop\Workspace\PythonWorkSpace\Machine-Learning\asstes\csv\2019_... ...
分类:
编程语言 时间:
2019-09-25 15:56:31
阅读次数:
87
本章主要对决策树算法进行了讲解,主要有决策树的生成过程、决策树的划分选择、决策树的剪枝处理、连续与缺失值的处理以及多变量决策树。 4.1 基本流程 决策树是基于树的结构来进行决策的。包含一个根节点、若干内部节点和若干叶节点。叶节点对应于决策结果,其他每个结点对应于一个属性测试。 决策树学习的目的是产 ...
分类:
其他好文 时间:
2019-09-16 21:11:08
阅读次数:
92
https://blog.csdn.net/zpxcod007/article/details/80118580 制作A卡,申请评分卡 数据集:15万个样本,特征 主要预处理手段:缺失值,异常值,样本不平衡的处理,划分数据集,做分箱处理(离散化),将样本的每个特征都映射到WOE空间 之后建模,这里采 ...
分类:
其他好文 时间:
2019-09-11 11:29:33
阅读次数:
216
1 数据质量分析 数据质量分析是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础。其主要任务是检查原始数据中是否存在脏数据: (1)缺失值 (2)异常值(outliers) (3)不一致的值 (4)重复数据及含有特殊符号的数据 1.1 缺失值分析 1.2 异常值分析 异常值是指样本中数值明 ...
分类:
其他好文 时间:
2019-08-27 01:14:51
阅读次数:
112