SparkSQL本质上是基于DAG模型的MPP。而Kylin核心是Cube(多维立方体)。关于MPP和Cube预处理的差异,重复如下: > MPP [1] 的基本思路是增加机器来并行计算,从而提高查询速度。比如扫描8亿记录一台机器要处理1小时,但如果用100台机器来并行处理,就只要一分钟不到。再配合 ...
分类:
数据库 时间:
2017-10-08 11:13:03
阅读次数:
188
[Spark][Python][DataFrame][RDD]DataFrame中抽取RDD例子 sqlContext = HiveContext(sc) peopleDF = sqlContext.read.json("people.json") peopleRDD = peopleDF.map( ...
分类:
编程语言 时间:
2017-10-07 22:46:45
阅读次数:
220
[Spark][Python][DataFrame][RDD]从DataFrame得到RDD的例子 $ hdfs dfs -cat people.json $pyspark sqlContext = HiveContext(sc) peopleDF = sqlContext.read.json("p ...
分类:
编程语言 时间:
2017-10-07 17:31:36
阅读次数:
191
[Spark][Python][DataFrame][SQL]Spark对DataFrame直接执行SQL处理的例子 $cat people.json $ hdfs dfs -put people.json $pyspark sqlContext = HiveContext(sc)peopleDF ...
分类:
数据库 时间:
2017-10-07 15:01:20
阅读次数:
285
[Spark][Python]DataFrame的左右连接例子 $ hdfs dfs -cat people.json $ hdfs dfs -cat pcodes.json $pyspark sqlContext = HiveContext(sc)peopleDF = sqlContext.rea ...
分类:
编程语言 时间:
2017-10-06 21:57:51
阅读次数:
450
[Spark][Python]DataFrame中取出有限个记录的例子: sqlContext = HiveContext(sc) peopleDF = sqlContext.read.json("people.json") peopleDF.limit(3).show() [training@lo ...
分类:
编程语言 时间:
2017-10-05 20:27:59
阅读次数:
250
引言 Join是SQL语句中的常用操作,良好的表结构能够将数据分散在不同的表中,使其符合某种范式,减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。 对于Spark来说有3中Join的实现,每种Join对应着不同的应用场景: 前两者都基于的是Hash Join,只不过在hash ...
分类:
数据库 时间:
2017-09-30 13:39:23
阅读次数:
200
relational database every relation has a schema defining fields in columns a set of relations relation: a table with rows and columns schema: name of ...
分类:
数据库 时间:
2017-09-27 10:16:24
阅读次数:
223
package testimport java.util.Propertiesimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.sql.{SQLContext, S ...
分类:
数据库 时间:
2017-09-19 16:46:48
阅读次数:
284
验证hive支持的语句,以下语句也被sparkSQL支持:<CREATEDATABASEcvv_db;
SHOWDATABASES;
ALTERDATABASEcvv_dbSETDBPROPERTIES(‘edited-by‘=‘cvv54‘);
USEDEFAULT;
DESCRIBEDATABASEcvv_db;
DROPDATABASEcvv_db;
CREATETABLEt2_part(user_idBIGINT,firstnameSTRING,lastname..
分类:
数据库 时间:
2017-09-08 18:11:58
阅读次数:
188