1. 参数:(zeroValue: U)(seqOp: (U, T) ? U, combOp: (U, U) ? U) 2. 作用:aggregate函数将每个分区里面的元素通过seqOp和初始值进行聚合,然后用combine函数将每个分区的结果和初始值(zeroValue)进行combine操作。 ...
分类:
其他好文 时间:
2019-12-26 13:15:28
阅读次数:
90
一 问题 hivesql可以正常运行,spark3.0运行报错如图 spark3.0配置 查看源码新增一个 val STORE_ASSIGNMENT_POLICY = buildConf("spark.sql.storeAssignmentPolicy") .doc("When inserting ...
分类:
数据库 时间:
2019-12-25 20:34:49
阅读次数:
162
流数据的窗口操作:窗口操作,即把几个批次的数据整合到一个窗口里计算,并且窗口根据步长不断滑动。 本质:把小批次,小颗粒的数据任意进行大批次和大颗粒的数据统计,意味着批次采集周期不用设置太大,可以通过滑动窗口来调整数据出现的粒度。 code: package com.home.spark.stream ...
分类:
其他好文 时间:
2019-12-25 17:36:28
阅读次数:
93
在windows上执行的时候,option(“timestampFormat”, “yyyy/MM/dd HH:mm:ss ZZ”)必须带上,不然报错: Exception in thread "main" java.lang.IllegalArgumentException: Illegal pa ...
分类:
编程语言 时间:
2019-12-24 23:47:57
阅读次数:
147
目录 一、Spark SQL介绍 二、Spark和Hive的整合 三、Spark的thriftserve2/beeline/jdbc 四、shell方式使用SQL 一、Spark SQL介绍 官网:http://spark.apache.org/sql/ 学习文档:http://spark.apac ...
分类:
数据库 时间:
2019-12-24 23:44:13
阅读次数:
353
自定义用户函数有两种方式,区别:是否使用强类型,参考demo:https://github.com/asker124143222/spark-demo 1、不使用强类型,继承UserDefinedAggregateFunction package com.home.spark import org. ...
分类:
数据库 时间:
2019-12-24 19:01:05
阅读次数:
134
Spark MLlib Spark分布式计算原理 Spark(分布式的计算平台),分布式:指计算节点之间不共享内存,需要通过网络通信的方式交换数据。Spark最典型的应用方式是建立在大量廉价计算节点(廉价主机、虚拟的docker container)上;但这种方式区别于CPU+GPU的架构和共享内存 ...
分类:
其他好文 时间:
2019-12-24 18:26:47
阅读次数:
182
https://stackoverflow.com/questions/52659109/cannot read from elasticsearch using pyspark https://stackoverflow.com/questions/35982550/how to read dat ...
分类:
其他好文 时间:
2019-12-23 18:29:41
阅读次数:
104
Spark on K8S源码解析sparkk8stime: 2019-12-19Spark on k8s源码解析1. Spark Submitspark-submit.shspark-class.shSparkSubmit第一步,初始化spark应用配置第二步,执行spark应用 Spark on ... ...
分类:
其他好文 时间:
2019-12-22 21:43:57
阅读次数:
113
细说Spark Streaming和Structured Streaming的区别 ...
分类:
其他好文 时间:
2019-12-22 14:55:01
阅读次数:
83