Spark是目前最流行的分布式计算框架,而HBase则是在HDFS之上的列式分布式存储引擎,基于Spark做离线或者实时计算,数据结果保存在HBase中是目前很流行的做法。例如用户画像、单品画像、推荐系统等都可以用HBase作为存储媒介,供客户端使用。 因此Spark如何向HBase中写数据就成为很 ...
分类:
其他好文 时间:
2018-03-01 00:45:06
阅读次数:
660
1、概述 pannel data analysis(面板数据分析)是NumPy的一个库,用于读取、处理数据,非常好用方便。Pandas 有两种自己独有的基本数据结构:Series 和 DataFrame,Series 类似于一维数组与字典(map)数据结构的结合。它由一组数据和一组与数据相对应的数据 ...
分类:
其他好文 时间:
2018-02-24 19:24:26
阅读次数:
178
Spark SQL是Spark最新和技术最为复杂的组件之一。它支持SQL查询和新的DataFrame API。Spark SQL的核心是Catalyst优化器,它以一种新颖的方式利用高级编程语言特性(例如Scala的模式匹配和quasiquotes)来构建可扩展查询优化器。 我们最近发布了一篇关于S ...
分类:
数据库 时间:
2018-02-20 21:00:57
阅读次数:
239
pandas有两个数据结构,一个是series 另一个是DataFrame from matplotlib import pyplot as pltimport numpy as npimport pandas as pdfrom numpy import nan as NAfrom pandas ...
分类:
编程语言 时间:
2018-02-18 16:41:21
阅读次数:
1194
前面介绍了numpy和pandas的数据计算功能.但是这些数据都是我们自己手动输入构造的.如果不能将数据自动导入到python中,那么这些计算也没有什么意义.这一章将介绍数据如何加载以及存储. 首先来看读写文本格式的数据 pandas提供了一些用于将表格型数据读取为DataFrame对象的函数.如下 ...
分类:
编程语言 时间:
2018-02-16 15:19:42
阅读次数:
232
pandas对象拥有一组常用的数学和统计方法,大部分都属于约简和汇总统计,用于从Series中提取单个的值,或者从DataFrame中的行或列中提取一个Series。相比Numpy而言,Numpy都是基于没有缺失数据的假设而构建的。 来看一个简单的例子 In [6]: df=DataFrame([[ ...
分类:
编程语言 时间:
2018-02-10 16:58:50
阅读次数:
297
Pandas有两个主要的数据结构:Series和DataFrame. Series是一种类似于一维数组的对象,它由一组数据以及一组与之相关的数据标签构成.来看下它的使用过程 In [1]: from pandas import Series,DataFrame In [2]: import pand ...
分类:
编程语言 时间:
2018-02-04 15:42:03
阅读次数:
233
import pymysql from pandas import DataFrame import pandas as pd import matplotlib.pylab as pyl conn = pymysql.connect(host="127.0.0.1", user="root", p... ...
分类:
其他好文 时间:
2018-02-04 15:38:43
阅读次数:
180
Pandaspandas是一个流行的开源Python项目,其名称取panel data(面板数据)与Python data analysis(Python 数据分析)之意。pandas有两个重要的数据结构:DataFrame和Seriespandas数据结构之DataFramepandas的Data... ...
分类:
编程语言 时间:
2018-02-04 11:09:58
阅读次数:
221
def CommonCompareWriteToOracle(hiveDF: DataFrame, bizDate: String, targetTable: String, srcId: String, spark: SparkSession): Unit = { val queryOldData ...
分类:
其他好文 时间:
2018-02-03 18:59:58
阅读次数:
163