[Spark][Python]Spark 访问 mysql , 生成 dataframe 的例子: mydf001=sqlContext.read.format("jdbc").option("url","jdbc:mysql://localhost/loudacre")\ .option("dbt ...
分类:
数据库 时间:
2017-10-03 21:37:03
阅读次数:
489
[Spark][python]以DataFrame方式打开Json文件的例子: [training@localhost ~]$ cat people.json{"name":"Alice","pcode":"94304"}{"name":"Brayden","age":30,"pcode":"943 ...
分类:
编程语言 时间:
2017-10-01 21:14:36
阅读次数:
471
pandas是基于Numpy构建的。 pandas的两个主要数据结构:Series和DataFrame。 Series和DataFrame用的次数非常多,将其导入本地命名空间会更方便: 一、Series Series是一种类似于一维数组的对象,由数据和数据标签(索引)组成,创建Series: Ser ...
分类:
其他好文 时间:
2017-09-25 23:55:20
阅读次数:
220
apply,applymap和map的应用总结是apply 用在dataframe上,用于对row或者column进行计算;applymap 用于dataframe上,是元素级别的操作;map (其实是python自带的)用于series上,是元素级别的操作。 ...
分类:
移动开发 时间:
2017-09-23 00:09:04
阅读次数:
171
两种数据结构Series和DataFrame。 Series Series与python中的列表一样,数据和索引值。 这里我们创建了一个Series对象。Series对象的数据值和索引: 列表的索引是从0开始的,Series默认情况下和列表类似从0开始索引。但是也可以自定义索引: 索引可以重定义: ...
分类:
编程语言 时间:
2017-09-16 22:12:16
阅读次数:
229
首先将数据导入并创建DataFrame对象,修改列名,并查看前10项数据是否正确 通过duplicated函数将相同项筛选出来并创建一个Series对象保存结果。然后输入Series对象中的10项 合并DataFrame对象Series对象,将series对象加入到same列并通过same列的值索引 ...
分类:
其他好文 时间:
2017-09-16 21:58:43
阅读次数:
128
在项目中使用spark-stream读取kafka数据源的数据,然后转成dataframe,再后通过sql方式来进行处理,然后放到hive表中, 遇到问题如下,hive-metastor在没有做高可用的情况下,有时候会出现退出,这个时候,spark streaminG的微批作业就会失败, 然后再启重 ...
分类:
其他好文 时间:
2017-09-16 21:54:24
阅读次数:
337
pandas缺失值补充 1、创建带有缺失值的数据框 #coding:utf8 import pandas as pd import numpy as np df=pd.DataFrame(np.random.randn(5,3),index=list('abcde'),columns=['one', ...
分类:
编程语言 时间:
2017-09-12 17:45:34
阅读次数:
191
数据为DataFrame格式,如下: 1.对每一行,FirstCab的值为空时,Weight的值乘以0.8 方法一(可行):df.loc[df['FirstCab'].isnull(),'Weight'] *= 0.8 方法二(可行):df['Weight'] = np.where(df['Firs ...
分类:
其他好文 时间:
2017-09-12 00:03:29
阅读次数:
366
GroupBy针对DataFrame将其按照某个准则分组 1.常见的调用形式为: 以上可理解为将Series作为分组键,y此外还可以将任何适当长度的array作为分组键,目前未尝试过 2.常用的方法: 3.举例GroupyBy的应用: 如给出的csv文件中columns包含['City','Stat ...
分类:
移动开发 时间:
2017-09-08 22:52:52
阅读次数:
749