resample与groupby的区别:resample:在给定的时间单位内重取样groupby:对给定的数据条目进行统计函数原型:DataFrame.resample(rule, how=None, axis=0, fill_method=None, closed=None, label=None ...
分类:
其他好文 时间:
2016-06-18 16:45:35
阅读次数:
202
我们对 DataFrame 进行选择,大抵从这三个层次考虑:行列、区域、单元格。其对应使用的方法如下:一. 行,列 --> df[]二. 区域 --> df.loc[], df.iloc[], df.ix[]三. 单元格 --> df.at[], df.iat[] 下面开始练习: 1. df[]: ...
分类:
其他好文 时间:
2016-06-18 07:53:22
阅读次数:
568
自认为比较有用的几个技巧。 df是一个DataFrame se是一个Series 1 、导入数据后,往往需要先看看数据长什么样子,这时候需要.head(n)函数, 即显示前n行数据。 df.head(5) se.head(5) 2、想要知道df有多少列,列的具体内容是什么,用 df.columns ...
分类:
其他好文 时间:
2016-06-14 01:07:34
阅读次数:
180
rdd生成方式: 1) 并行化 2) 通过读取文件api方法生成 DataFrame生成方式: 1)从rdd生成 2)读取hive表生成 ...
分类:
数据库 时间:
2016-06-12 10:45:05
阅读次数:
166
Seaborn的优点:(摘自http://www.tuicool.com/articles/7NzaEvq) 默认情况下就能创建赏心悦目的图表 创建具有统计意义的图 能理解pandas的DataFrame类型 Seaborn将matplotlib的参数划分为两个组,第一组控制图表的样式和图的度量尺度 ...
分类:
其他好文 时间:
2016-06-07 22:21:36
阅读次数:
200
pandas 两个主要数据结构:Series 和 DataFrame。(建议引入本地)Series:类似于一维数组的对象,它由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成通过Series 的 values 和 index 属性获取其数组表示形式和索引对象可以为数据指定索... ...
分类:
其他好文 时间:
2016-06-07 14:39:28
阅读次数:
653
DataFrame.as_matrix(columns=None)¶ Convert the frame to its Numpy-array representation. ...
分类:
其他好文 时间:
2016-06-06 06:53:38
阅读次数:
2542
import pandas as pd import numpy as np df1 = pd.DataFrame(np.array([['a', 5, 9], ['b', 4, 61], ['c', 24, 9]]), columns = ['name', 'attr11', 'attr12'])... ...
分类:
其他好文 时间:
2016-06-05 06:32:27
阅读次数:
1697
问题导读:
1.合并数据集
解决方案:
合并数据集
(1)数据库风格的DataFrame 合并
pandas的merge 函数 将通过一个或多个键将行连接起来如果没有指定列,merge 就会直接依据相同列名的那一列进行连接
In [3]: df1 = pd.DataFrame(
...: {'key':['b','b','a','c','a','a...
分类:
编程语言 时间:
2016-06-02 14:58:37
阅读次数:
560
一、从csv文件创建DataFrame
本文将介绍如何从csv文件创建DataFrame。
如何做?
从csv文件创建DataFrame主要包括以下几步骤:
1、在build.sbt文件里面添加spark-csv支持库;
2、创建SparkConf对象,其中包括Spark运行所有的环境信息;
3、创建SparkContext对象,它是进入Spark的核心切入点,...
分类:
其他好文 时间:
2016-05-23 15:07:15
阅读次数:
250