1、创建Spark Session 2、将RDD隐式转换为DataFrame import spark.implicits._ 3、SparkSession 介绍 spark中包含 sparkContext和 sqlContext两个对象 sparkContext 是操作 RDD 的 sqlCont ...
分类:
数据库 时间:
2017-08-26 22:48:53
阅读次数:
271
1.小表对大表(broadcast join) 将小表的数据分发到每个节点上,供大表使用。executor存储小表的全部数据,一定程度上牺牲了空间,换取shuffle操作大量的耗时,这在SparkSQL中称作Broadcast Join Broadcast Join的条件有以下几个: *被广播的表需 ...
分类:
数据库 时间:
2017-08-23 15:01:09
阅读次数:
195
spark中RDD、DataFrame、DataSet都是spark的数据集合抽象,RDD针对的是一个个对象,但是DF与DS中针对的是一个个Row RDD 优点: 编译时类型安全 编译时就能检查出类型错误 面向对象的编程风格 直接通过类名点的方式来操作数据 缺点: 序列化和反序列化的性能开销 无论是 ...
分类:
数据库 时间:
2017-08-09 00:14:59
阅读次数:
280
实现代码如上,因为Statistics.corr(RDD[Double],RDD[Double]),所以SparkSQL读取后的数据生成的dataFrame必须转换,第一步是转换成RDD[Row],Row就相当于sql查询出来的一条数据,这里也转换过多次才成功,最后百度得到可以先.cast(Doub ...
分类:
其他好文 时间:
2017-08-07 11:54:15
阅读次数:
650
Spark大数据计算框架、架构、计算模型和数据管理策略及Spark在工业界的应用。围绕Spark的BDAS项目及其子项目进行了简要介绍。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、SparkStreaming、GraphX、MLlib等子项目,本章只进行简要介绍,后续章..
分类:
其他好文 时间:
2017-07-07 20:18:35
阅读次数:
128
Spark SQL中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作,在DataFrame中都可以通过调用其API接口来实现。可以参考,Scala提供的DataFrame API。 本文中的代码基于Spark-1.6.2的文档实现。 一、DataFrame对象的生成 ...
分类:
数据库 时间:
2017-07-06 16:58:40
阅读次数:
641
在Spark中使用sql时一些功能需要自定义方法实现,这时候就可以使用UDF功能来实现 多参数支持 UDF不支持参数*的方式输入多个参数,例如String*,不过可以使用array来解决这个问题。 定义udf方法,此处功能是将多个字段合并为一个字段 在sql中使用 在DataFrame中使用 ...
分类:
数据库 时间:
2017-07-03 23:44:42
阅读次数:
279
和Hive SQL演变而来,有很多相似之处; 挖坑待做; Spark入门之五:SparkSQL的原理以及架构 ...
分类:
数据库 时间:
2017-07-03 00:57:27
阅读次数:
184
SparkSQL 实战应用 数据集 :http://grouplens.org/datasets/movielens/ MovieLens 1M Datase 相关数据文件 : users.dat UserID::Gender::Age::Occupation::Zip-code movies.da ...
分类:
数据库 时间:
2017-07-02 14:23:53
阅读次数:
199
[Author]: kwu 基于sparksql调用shell脚本运行SQL,sparksql提供了类似hive中的 -e , -f ,-i的选项 1、定时调用脚本 #!/bin/sh # upload logs to hdfs yesterday=`date --date='1 days ago' ...
分类:
数据库 时间:
2017-06-19 09:52:08
阅读次数:
414