结果: 结果: 结果: one two a 1.0 NaN b 2.0 2.0 c 4.0 3.0 d NaN 4.0 one a 1 b 2 c 4 two b 2 c 3 d 4 dtype: int64 #修补 df1 = pd.DataFrame([[np.nan,3,5],[-1,6,np ...
分类:
其他好文 时间:
2018-03-27 18:38:25
阅读次数:
436
评价:apply 是 pandas 库的一个很重要的函数,多和 groupby 函数一起用,也可以直接用于 DataFrame和 Series 对象。主要用于数据聚合运算,可以很方便的对分组进行现有的运算和自定义的运算。 源码(可作用于一行或一列的元素) df.apply(func, axis=0, ...
分类:
移动开发 时间:
2018-03-21 13:53:17
阅读次数:
421
例子: df1 = pd.DataFrame(np.arange(9).reshape(3,3),index=["BJ","SH","GZ"],columns=["a","b","c"]) >>> 方法一: df1.index = pd.Series(["bj","sh","gz"]) 方法二: d ...
分类:
其他好文 时间:
2018-03-21 11:31:40
阅读次数:
1725
# -*- coding:utf-8 -*- # 数据集成 import csv import numpy as np import pandas as pd import matplotlib.pyplot as plt #客户信息 basicInfo = pd.DataFrame.from_cs... ...
分类:
编程语言 时间:
2018-03-20 22:08:35
阅读次数:
531
1.1NaN in Series s1 = pd.Series([1,2,np.nan,3,4],index=["a","b","c","d","e"]) 删除nan 1.2 NaN in DataFrame df.isnull() 生成所有数据的true/false矩阵 df.isnull().a ...
分类:
其他好文 时间:
2018-03-19 16:50:15
阅读次数:
872
缺失值的类型 首先对数据的变量(特征)按照缺失和不缺失进行分类:不含有缺失值的变量称为完全变量,含有缺失值的变量称为非完全变量。 缺失值的类型分为三种:完全随机缺失,随机缺失和非随机缺失。 完全随机缺失: 缺失的变量和其余的变量没有关系。比如”家庭住址“这个信息,和”身高“等其余的变量没有关系。 随 ...
分类:
其他好文 时间:
2018-03-18 20:13:33
阅读次数:
630
转自:python 把几个DataFrame合并成一个DataFrame——merge,append,join,conca http://blog.csdn.net/zutsoft/article/details/51498026 ...
分类:
Web程序 时间:
2018-03-16 18:46:06
阅读次数:
157
当在Spark SQL中对两个Dataframe使用join时,当作为连接的字段的值 含有null值 。由于null表示的含义是未知,既不知道有没有,在SQL中null值与任何其他值的比较(即使是null)永远不会为真。故在进行连接操作时 null == null不为True ,所以结果中不会出现该 ...
分类:
数据库 时间:
2018-03-16 17:22:42
阅读次数:
2246
一:前置知识具体解释: Spark SQL重要是操作DataFrame,DataFrame本身提供了save和load的操作。 Load:能够创建DataFrame。 Save:把DataFrame中的数据保存到文件或者说与具体的格式来指明我们要读取的文件的类型以及与具体的格式来指出我们要输出的文件 ...
分类:
数据库 时间:
2018-03-15 11:21:34
阅读次数:
259
DataFrame不是Spark SQL提出,而是在Pandas就有 DataSet:分布式的数据集 DataFrame:以列的形式构成的分布式数据集(RDD with schema) 可以从各种source转换成,如RDD、SQL、noSQL等 做了抽象的处理 DataFrame对比RDD Dat ...
分类:
其他好文 时间:
2018-03-11 12:08:40
阅读次数:
3112