dplyr包是Hadley Wickham的新作,主要用于数据清洗和整理,该包专注dataframe数据格式,从而大幅提高了数据处理速度,并且提供了与其它数据库的接口;tidyr包的作者是Hadley Wickham, 该包用于“tidy”你的数据,这个包常跟dplyr结合使用。 dplyr、tid ...
分类:
编程语言 时间:
2018-03-10 01:25:25
阅读次数:
4450
利用pandas.DataFrame.dropna处理含有缺失值的数据 1.使用形式: DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False) 功能:处理含有缺失值的dataframe,将缺失值的行列过 ...
分类:
其他好文 时间:
2018-03-08 17:21:03
阅读次数:
278
==> 在内存中缓存数据 ---> 性能调优主要是将数据放入内存中操作 ---> 使用例子:// 从 Oracle 数据库中读取数据,生成 DataFrame
val oracleDF = spark.read
分类:
数据库 时间:
2018-03-08 10:35:45
阅读次数:
1075
==>什么是SparkSQL?--->SparkSQL是Spark用来处理结构化数据的一个模块--->作用:提供一个编程抽象(DataFrame)并且作为分布式SQL查询引擎--->运行原理:将SparkSQL转化为RDD,然后提交到集群执行--->特点:----容易整合----统一的数据访问方式----兼容Hive----标准的数据连接----==>DataFrames组织成命名列的数据集,等同
分类:
数据库 时间:
2018-03-07 13:26:08
阅读次数:
1623
一:汇总和计算描述统计 pandas对象拥有一组常用的数据和统计方法,用于从Series中提取单个值(sum,mean)或者从DataFrame的行或者列中提取一个Series对应的Numpy数组方法相比 调用sum可以返回一个小计,传入axis=1会按照行进行计算, axis=0,按照列进行计算 ...
分类:
其他好文 时间:
2018-03-04 00:22:10
阅读次数:
360
pandans另种主要的数据结构Series和DateFranme 1,Series 仅由一组数据就而已产生简单的Series 2)Series 有index和values属性,表达索引对象 3)设置索引和取值 4)把数据存放到字典,也可以通过字典建立Series DataFrame 1,是一种表格 ...
分类:
其他好文 时间:
2018-03-03 20:31:04
阅读次数:
185
很多情况下,我们会根据一个dataframe里面的值来查找而不是根据索引来查找。 首先我们创建一个dataframe: 如果我们要选年龄大于等于20岁的,这个好办: 或者选出所有女生(sex=0的),也好办: 也可用where,但不太方便:(一般不会这样用) 但是如果要按名字来选出,就不能这样了,得 ...
分类:
其他好文 时间:
2018-03-02 18:47:26
阅读次数:
431
在Spark中,Dataframe简直可以称为内存中的文本文件。 就像在电脑上直接操作txt、 csv、 json文件一样简单。 val sparkConf = new SparkConf().setAppName("df2db").setMaster("local[1]") val sc = ne ...
分类:
数据库 时间:
2018-03-01 20:07:32
阅读次数:
945
弹性分布式数据集(Resilient Distributed Dataset,RDD) RDD是Spark一开始就提供的主要API,从根本上来说,一个RDD就是你的数据的一个不可变的分布式元素集合,在集群中跨节点分布,可以通过若干提供了转换和处理的底层API进行并行处理。每个RDD都被分为多个分区, ...
分类:
其他好文 时间:
2018-03-01 14:57:10
阅读次数:
208
DataFrame合并: merge运算是将一个或多个键将行链接起来。来看下面的这个例子: In [5]: df1=DataFrame({'key':['b','b','a','c','a','a','b'],'data1':range(7)}) In [6]: df2=DataFrame({'ke ...
分类:
编程语言 时间:
2018-03-01 11:48:13
阅读次数:
388