玩了很久总算是又静下心来好好看书,经过一段时间的学习,打算稍微检验一下知识的掌握程度,所以去kaggle参加了久闻的泰坦尼克生还预测,以下是正文。 1、观察数据 拿到数据集后,先来了解数据的大致情况。 可以得知数据集有12列,891行,其中'Age'、'Cabin'、'Embarked'列存在缺失值 ...
分类:
其他好文 时间:
2018-12-17 02:13:18
阅读次数:
184
原文地址:https://www.zybuluo.com/jk88876594/note/802632 DataFrame——数据清洗 阿雷边学边教python数据分析第3期——pandas与numpy 1.缺失值处理 python中用NaN(Not a Number)表示缺失数据 (1)判断缺失值 ...
分类:
其他好文 时间:
2018-12-04 21:08:19
阅读次数:
289
查看每列缺失值的数量 Sum(pd.isnull(‘df’) ) 可以将na_values选项传递到 pd.read_csv来清理它们。我们还可以指定某列的类型是字符串,而不是浮点。 na_values = ['NO CLUE', 'N/A', '0'] requests = pd.read_csv ...
分类:
其他好文 时间:
2018-11-30 11:40:04
阅读次数:
276
以京东购买预测为例,讲述数据挖局一般流程: 数据挖掘流程: (一)、数据清洗 1、数据集完整性验证 2、数据集中是否存在缺失值 3、数据集中各特征数值应该如何处理 4、哪些数据使我们想要的,哪些是可以过滤掉的 5、将有价值数据信息做成新的数据源 6.去除无行为交互的商品和用户 7、去掉浏览量很大而购 ...
分类:
其他好文 时间:
2018-11-23 23:28:07
阅读次数:
174
数值型数据处理的方式:1,归一化 2,标准化 3,缺失值处理(pandas处理) 类别型数据:on-hot编码 时间类型数据:时间切分 ...
分类:
其他好文 时间:
2018-11-19 17:32:51
阅读次数:
491
RT。。。老实说这一章我是抖的。。。但是,加油~ ...
分类:
其他好文 时间:
2018-11-12 17:32:28
阅读次数:
165
#缺失值 Missing Value > #NaN不可识别NA> x <- c(1,NA,2,NA,3) > is.na(x)[1] FALSE TRUE FALSE TRUE FALSE > is.nan(x)[1] FALSE FALSE FALSE FALSE FALSE > #NA可识别Na ...
分类:
编程语言 时间:
2018-11-11 16:01:01
阅读次数:
150
创建一维数组: 创建二维数组: 查看数组形状: 参数为列表的创建方法: 创建一个10*8的全为1的矩阵: 创建4*4全为0的矩阵: 填充矩阵: 创建满秩矩阵: 平均分组:(0-100) 迭代器生成数组,左闭右开:步长为2的数组 随机生成一个一维数组,5个元素: np.random.ranint(0, ...
分类:
其他好文 时间:
2018-11-07 20:44:34
阅读次数:
168
1. python基础知识 2. 重点工具掌握:数据解析核心技巧 - Numpy| Pandas| Matplotlib 3. 数据特征分析:分布| 对比| 统计| 帕累托| 正态| 相关性分析 4. 数据处理:缺失值| 异常值| 数据归一| 数据连续属性离散化 5. 数学建模:监督学习(回归分析、 ...
分类:
编程语言 时间:
2018-10-14 20:57:36
阅读次数:
159
1、交叉表(crosstab): pandas中也有,常和pivot_table比较。 查看家庭ID与评分的交叉表: 2、处理缺失值:fillna withColumn:新增一列数据 cast : 用于将某种数据类型的表达式显式转换为另一种数据类型 将缺失值删除:dropna 3、处理重复值 查看有 ...
分类:
其他好文 时间:
2018-10-11 14:26:50
阅读次数:
566