一般来说,一个spark程序包含两种 JVM 程序,Dirver 和 Executor。Dirver 是主要的控制程序,负责创建 context,提交任务,那 job 转换为 task 并且协调 task 在 executor 中的执行。Executor 主要是负责执行计算任务并且将结果返回给 Dr ...
分类:
其他好文 时间:
2020-05-24 23:52:11
阅读次数:
70
[toc] 一、部署Hadoop本地模式 1. 搭建linux环境 我用的centos7 2. 在/opt目录下创建目录 3. 安装jdk 4. 下载hadoop https://hadoop.apache.org/releases.html 并解压到/opt/module目录 5. 配置hadoo ...
分类:
其他好文 时间:
2020-05-24 23:42:50
阅读次数:
64
```shell #!/bin/bash case $1 in "start"){ for i in hadoop120 hadoop121 hadoop 122 do echo "************$i*************" ssh $i "/.../kafka/bin/kafka-s... ...
分类:
其他好文 时间:
2020-05-24 21:00:57
阅读次数:
111
YARN调度架构 esourceScheduler是YARN的调度器,负责Container的分配。 AsyncDispatcher是单线程的事件分发器,负责向调度器发送调度事件。 ResourceTrackerService是资源跟踪服务,主要负责接收处理NodeManager的心跳信息。 App... ...
分类:
移动开发 时间:
2020-05-24 20:59:39
阅读次数:
118
作者 渡码,阿里巴巴码农,公众号:渡码 作者,专注大数据开发、数据分析和Python技术。 关注公众号 渡码 回复关键字 manis,可获取电子书、各章节和完整源代码,并且可加入读者群一起交流问题。 简介 19年上半年,我阅读了Hadoop RPC模块的源代码,读完后发现这个模块设计的非常好,与其他 ...
分类:
其他好文 时间:
2020-05-24 19:17:26
阅读次数:
73
简介 Spark有3种集群管理器: Standalone Hadoop YARN 又分为yarn client与yarn cluser Apache Mesos 生产环境中一般使用yarn cluser模式 个人理解 yarn主要有两个作用. 一个是创建container以此来分配计算资源 另外一个 ...
分类:
其他好文 时间:
2020-05-24 11:33:26
阅读次数:
64
DStream的转化操作DStreamAPI提供的与转化操作相关的方法如下:如下举例详解transform(func)方法和updateStateByKey(fhnc)方法:(1)、transform(func)方法transform方法及类似的transformWith(func)方法允许在DStream上应用任意RDD-to-RDD函数,它们可以被应用于未在DStreamAPI中暴露的任何RD
分类:
其他好文 时间:
2020-05-24 10:00:38
阅读次数:
88
为了方便远程提交代码运行,我们在Eclipse下搭建Hadoop开发环境。 1.JDK安装配置 首先得先安装并配置好JDK,然后下载安装Eclipse。这一部分不做过多介绍,使用java这一步应该都已经达成,接下来开始对Hadoop开发环境进行搭建。 2.Hadoop插件安装和配置 Eclipse ...
分类:
系统相关 时间:
2020-05-24 09:56:20
阅读次数:
70
本文始发于个人公众号: TechFlow ,原创不易,求个关注 今天是spark专题的第六篇文章,这篇文章会介绍一个免费的spark平台,我们可以基于这个平台做一些学习实验。 databricks 今天要介绍的平台叫做databricks,它是spark的创建者开发的统一分析平台。单凭spark创建 ...
分类:
其他好文 时间:
2020-05-24 09:23:32
阅读次数:
113