0)摘要 主要介绍了Spark Streaming整合Kafka,两种整合方式:Receiver-based和Direct方式。这里使用的是Kafka broker version 0.8.2.1,官方文档地址:(http://spark.apache.org/docs/2.2.0/streamin ...
分类:
其他好文 时间:
2019-10-31 23:40:35
阅读次数:
97
1、生成票据 1.1、创建认证用户 登陆到kdc服务器,使用root或者可以使用root权限的普通用户操作: # kadmin.local -q “addprinc -randkey spark/yjt” 1.2、生成密钥文件 生成spark密钥文件 # kadmin.local -q “xst - ...
分类:
其他好文 时间:
2019-10-31 10:30:24
阅读次数:
319
姓名:胡非凡 学号:201821121081 班级:计算1813 目录 1 实验目的 2 实验内容 3. 实验报告 3.1 建立网络拓扑结构 3.2 配置参数 3.3 测试网络连通性 3.4 理解RIP路由表建立和更新 4. 理解RIP消息传得慢 5. 拓展 1 实验目的 2 实验内容 3. 实验报 ...
分类:
其他好文 时间:
2019-10-30 21:07:25
阅读次数:
174
本文分别介绍GuassDB跨集群访问远端oracle以及远端MPPDB数据库。因环境有限,这里不列举对接HDFS以及对接Spark功能。一、对接oracle数据库1、约束限制仅支持连接Oracle11.2.0.1至Oracle12.2.0.1。要求Oracle-ODBC驱动的版本为12.2.0.1.0。unixODBC的版本要求为2.3.6。支持最多配置20组远端Oracle配置。配置所需要的Or
分类:
数据库 时间:
2019-10-30 11:54:20
阅读次数:
440
Spark(二)算子讲解 @[toc] 一、wordcountcount 基于上次的wordcount,我们来写一个wordcountcount,来对wc程序进行第二次计数,我们来分析一下性能。 通过性能图,我们可以知道: 1.Spark如果不对其结果进行存储或输出,那么Spark将不会处理map或 ...
分类:
其他好文 时间:
2019-10-28 14:58:09
阅读次数:
76
一:Spark的性能优化,主要手段包括:1、使用高性能序列化类库2、优化数据结构3、对多次使用的RDD进行持久化 / Checkpoint4、使用序列化的持久化级别5、Java虚拟机垃圾回收调优6、提高并行度7、广播共享数据8、数据本地化9、reduceByKey和groupByKey的合理使用10 ...
分类:
其他好文 时间:
2019-10-27 22:29:23
阅读次数:
59
一个job对应一个action操作,action执行会有先后顺序; 每个job执行会先构建一个DAG路径,一个job会含有多个stage,主要逻辑在DAGScheduler。 spark提交job的源码见(SparkContext.scala的runJob方法): DAGScheduler--job ...
分类:
其他好文 时间:
2019-10-27 17:08:08
阅读次数:
115
1、避免创建重复的RDD和不必要的内存空间浪费 错误代码: 错误解析: 这种情况下,Spark需要从文件中加载两次hello.txt文件的内容,并创建两个单独的RDD;第二次加载HDFS文件以及创建RDD的性能开销,很明显是白白浪费掉的 正确代码: 2、尽最大可能复用同一个RDD 错误代码: 错误解 ...
分类:
其他好文 时间:
2019-10-27 15:04:12
阅读次数:
103
1、首先我们编写完类打成jar包提交到集群上,然后用spark-submit提交任务。提交任务可以分为集群和本地模式(集群:spark-submit --master spark://master:7077 --class 全类名 jar包路径 需要的参数)(本地:spark-submit --cl ...
分类:
其他好文 时间:
2019-10-27 12:54:30
阅读次数:
86
Spark 内存管理 Spark 执行应用程序时, 会启动 Driver 和 Executor 两种 JVM 进程 Driver 负责创建 SparkContext 上下文, 提交任务, task的分发等。 Executor 负责 task 的计算任务, 并将结果返回给 Driver, 同时需要为需 ...
分类:
其他好文 时间:
2019-10-26 15:35:36
阅读次数:
95