代码: import org.apache.log4j.{Level, Logger}import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}object Update ...
分类:
其他好文 时间:
2019-12-11 19:24:49
阅读次数:
105
这一两年Spark技术很火,自己也凑热闹,反复的试验、研究,有痛苦万分也有欣喜若狂,抽空把这些整理成文章共享给大家。这个系列基本上围绕了Spark生态圈进行介绍,从Spark的简介、编译、部署,再到编程模型、运行架构,最后介绍其组件SparkSQL、Spark Streaming、Spark MLi ...
分类:
其他好文 时间:
2019-12-11 09:16:33
阅读次数:
82
1.需求描述 在终端输入2个数字,然后根据输入的数字求和 2.实现代码 ...
分类:
编程语言 时间:
2019-12-11 00:38:16
阅读次数:
128
import org.apache.spark.rdd.RDDimport org.apache.spark.{Partitioner, SparkConf, SparkContext} object Transformation { def main(args: Array[String]): U ...
分类:
其他好文 时间:
2019-12-10 22:41:03
阅读次数:
147
其实Rocketmq的给第三方的插件已经全了,如果大家有兴趣的话请移步https://github.com/apache/rocketmq-externals。本文主要是结合笔者已有的rmq在spark中的应用经验对rocketmq做简单介绍以及经验总结,当然免不了会将rocketmq和如今特别火爆 ...
分类:
其他好文 时间:
2019-12-10 22:13:08
阅读次数:
157
val rdd= sc.parallelize(List(("tom",1),("jerry",3),("kitty",2),("tom",2))) //1.根据传入的参数进行分组 val rdd1:RDD[(String, Iterable[(String, Int)])] =rdd.groupB ...
分类:
其他好文 时间:
2019-12-10 19:45:36
阅读次数:
110
spark-shell 整合 hive 1、将 hive/conf/hive-site.xml 拷贝到 spark/conf 下 将 hive/lib/mysql-connector-java-8.0.14.jar 拷贝到 spark-244/jars/mysql-connector-java-8. ...
分类:
其他好文 时间:
2019-12-10 15:21:07
阅读次数:
119
1、下载 http://archive.apache.org/dist/spark/spark 2.4.1/spark 2.4.1 bin hadoop2.7.tgz 2、解压 3、配置环境变量SPARK_HOME vim /etc/profile 或者 vim ~/.bashrc source / ...
分类:
系统相关 时间:
2019-12-10 00:55:19
阅读次数:
79
本地模式Spark单机运行,一般用于开发测试。Standalone模式构建一个由Master+Slave构成的Spark集群,Spark运行在集群中。Spark on Yarn模式Spark客户端直接连接Yarn。不需要额外构建Spark集群。Spark on Mesos模式Spark客户端直接连接 ...
分类:
其他好文 时间:
2019-12-09 21:11:23
阅读次数:
237
前言Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎,web/nginx日志、访问日志,消息服务等等,用scala语言编写,Linkedi
分类:
其他好文 时间:
2019-12-09 18:50:02
阅读次数:
101