SparkSQL作为分布式查询引擎:两种方式 SparkSQL作为分布式查询引擎:Thrift JDBC/ODBC服务 SparkSQL作为分布式查询引擎:Thrift JDBC/ODBC服务 SparkSQL作为分布式查询引擎: beeline SparkSQL作为分布式查询引擎: Spark S ...
分类:
数据库 时间:
2017-09-02 16:46:37
阅读次数:
237
Spark SQL是什么? 何为结构化数据 sparkSQL与spark Core的关系 Spark SQL的前世今生:由Shark发展而来 Spark SQL的前世今生:可以追溯到Hive Spark SQL的前世今生:Hive 到Shark(在Hive上做改进) Spark SQL的前世今生:S ...
分类:
数据库 时间:
2017-08-31 00:15:26
阅读次数:
256
1、创建Spark Session 2、将RDD隐式转换为DataFrame import spark.implicits._ 3、SparkSession 介绍 spark中包含 sparkContext和 sqlContext两个对象 sparkContext 是操作 RDD 的 sqlCont ...
分类:
数据库 时间:
2017-08-26 22:48:53
阅读次数:
271
1.小表对大表(broadcast join) 将小表的数据分发到每个节点上,供大表使用。executor存储小表的全部数据,一定程度上牺牲了空间,换取shuffle操作大量的耗时,这在SparkSQL中称作Broadcast Join Broadcast Join的条件有以下几个: *被广播的表需 ...
分类:
数据库 时间:
2017-08-23 15:01:09
阅读次数:
195
spark中RDD、DataFrame、DataSet都是spark的数据集合抽象,RDD针对的是一个个对象,但是DF与DS中针对的是一个个Row RDD 优点: 编译时类型安全 编译时就能检查出类型错误 面向对象的编程风格 直接通过类名点的方式来操作数据 缺点: 序列化和反序列化的性能开销 无论是 ...
分类:
数据库 时间:
2017-08-09 00:14:59
阅读次数:
280
实现代码如上,因为Statistics.corr(RDD[Double],RDD[Double]),所以SparkSQL读取后的数据生成的dataFrame必须转换,第一步是转换成RDD[Row],Row就相当于sql查询出来的一条数据,这里也转换过多次才成功,最后百度得到可以先.cast(Doub ...
分类:
其他好文 时间:
2017-08-07 11:54:15
阅读次数:
650
Spark大数据计算框架、架构、计算模型和数据管理策略及Spark在工业界的应用。围绕Spark的BDAS项目及其子项目进行了简要介绍。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、SparkStreaming、GraphX、MLlib等子项目,本章只进行简要介绍,后续章..
分类:
其他好文 时间:
2017-07-07 20:18:35
阅读次数:
128
Spark SQL中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作,在DataFrame中都可以通过调用其API接口来实现。可以参考,Scala提供的DataFrame API。 本文中的代码基于Spark-1.6.2的文档实现。 一、DataFrame对象的生成 ...
分类:
数据库 时间:
2017-07-06 16:58:40
阅读次数:
641
在Spark中使用sql时一些功能需要自定义方法实现,这时候就可以使用UDF功能来实现 多参数支持 UDF不支持参数*的方式输入多个参数,例如String*,不过可以使用array来解决这个问题。 定义udf方法,此处功能是将多个字段合并为一个字段 在sql中使用 在DataFrame中使用 ...
分类:
数据库 时间:
2017-07-03 23:44:42
阅读次数:
279
和Hive SQL演变而来,有很多相似之处; 挖坑待做; Spark入门之五:SparkSQL的原理以及架构 ...
分类:
数据库 时间:
2017-07-03 00:57:27
阅读次数:
184