Spark的运行版本使用mvn编译,已经集成在源码中。如果机器有外网或者配置了http代理,可以直接调用编译命令来进行编译。 windows&Linux命令如下: ./build/mvn \ -Phadoop-x.y \ -Dhadoop.version=x.y.z \ -Pyarn \ -Dyar ...
分类:
其他好文 时间:
2018-08-22 18:25:49
阅读次数:
123
一、Spark SQL的特点 1、支持多种数据源:Hive、RDD、Parquet、JSON、JDBC等。2、多种性能优化技术:in-memory columnar storage、byte-code generation、cost model动态评估等。3、组件扩展性:对于SQL的语法解析器、分析 ...
分类:
数据库 时间:
2018-08-22 18:23:03
阅读次数:
158
1.说明 虽然DStream可以转换成RDD,但是如果比较复杂,可以考虑使用SparkSQL。 2.集成方式 Streaming和Core整合: transform或者foreachRDD方法 Core和SQL整合: RDD <==> DataFrame 互换 3.程序 4.效果 ...
分类:
数据库 时间:
2018-08-16 22:28:07
阅读次数:
224
spark SQL经常需要访问Hive metastore,Spark SQL可以通过Hive metastore获取Hive表的元数据。从Spark 1.4.0开始,Spark SQL只需简单的配置,就支持各版本Hive metastore的访问。注意,涉及到metastore时Spar SQL忽 ...
分类:
数据库 时间:
2018-08-09 23:04:22
阅读次数:
286
一:SparkSQL中的函数 1.说明 2.展示所有的函数 qlContext.sql("show functions").show(300) 3.functions类 所有内置支持的函数。 主要用于DSL语言。 二:窗口分析函数 1.说明 hive中常用的一种分析函数。 2.在Spark中使用be ...
分类:
数据库 时间:
2018-07-29 00:14:35
阅读次数:
253
sparksql概述 Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 相比于Spark RDD API,Spark SQL包含了对结构化数据和在其上运算的更多信息,Spark SQL使用这些信息进行了额外的优 ...
分类:
数据库 时间:
2018-07-26 15:12:40
阅读次数:
216
在Spark中,也支持Hive中的自定义函数。自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date等 UDAF(User- Defined Aggregation Funcation),用户自定义聚合函数,类似在 ...
分类:
数据库 时间:
2018-07-14 00:53:49
阅读次数:
196
一、SparkSQL的进化之路 1.0以前: Shark 1.1.x开始: SparkSQL(只是测试性的) SQL 1.3.x: SparkSQL(正式版本)+Dataframe 1.5.x: SparkSQL 钨丝计划 1.6.x: SparkSQL+DataFrame+DataSet(测试版本 ...
分类:
数据库 时间:
2018-07-14 00:53:31
阅读次数:
345
sparkSQL在使用cache缓存的时候,有时候缓存可能不起作用,可能会发出缓存是假的吧的感慨。现在我们就把这个问题说道说道。
分类:
数据库 时间:
2018-07-12 18:04:26
阅读次数:
338
由于我要叠加rdd某列的数据,如果加数中出现nan,结果也需要是nan,nan可以做到,但我要处理的数据源中的nan是以null的形式出现的,null不能叠加,而且我也不能删掉含null的行,于是我用了sparksql 的 ISNULL和CASE WHEN方法: Case When 方法: 如果ob ...
分类:
其他好文 时间:
2018-07-09 19:15:05
阅读次数:
484