Master源码 1 package org.apache.spark.deploy.master 2 //伴生类 3 private[deploy] class Master( 4 override val rpcEnv: RpcEnv, 5 address: RpcAddress, 6 webU ...
分类:
其他好文 时间:
2019-12-22 14:52:23
阅读次数:
91
1、Spark核心组件 1.1 Cluster Manager(Master,ResourceManager) Spark的集群管理器,主要负责对整个集群资源的分配与管理 Cluster Manager 在 Yarn 部署模式下为 ResourceManager 在 Mesos 部署模式下为 Mes ...
分类:
其他好文 时间:
2019-12-22 14:51:31
阅读次数:
93
1、start-all.sh脚本,实际上执行java -cp Master 和 java -cp Worker 2、Master 启动时首先穿件一个RpcEnv对象,负责管理所有通信逻辑 3、Master 通信RpcEnv对象创建一个Endpoint,Master就是一个Endpoint,Worke ...
分类:
其他好文 时间:
2019-12-22 14:39:30
阅读次数:
98
1、RpcEndpoint: RPC端点 Spark针对每个节点(Client、Master、Worker)都称之为一个RpcEndpoint,且都实现RpcEndpoint接口,内部根据不同端点的需求,设计不同的消息和不同的业务处理,如果需要发送(询问)则内部调用Dispatcher的对应方法 说 ...
分类:
Web程序 时间:
2019-12-22 14:19:28
阅读次数:
120
第1章 课程介绍&学习指南本章会对这门课程进行说明并进行学习方法介绍。第2章 Redis入门Redis是目前最火爆的内存数据库之一,通过在内存中读写数据,大大提高了读写速度。本章将从Redis特性、应用场景出发,到Redis的基础命令,再到Redis的常用数据类型实操,最后通过Java API来操作 ...
分类:
其他好文 时间:
2019-12-22 10:59:01
阅读次数:
839
spark 提供了两个机器学习库 MLlib 和 ML,MLlib 是 spark 第一个机器学习库,相比于 ML,它更加成熟 rdd 是 spark core 的数据抽象,dataframe 是 sparkSQL 的数据抽象, 而 MLib 的数据抽象包括 Vector、LabeledPoint、 ...
分类:
其他好文 时间:
2019-12-20 18:26:13
阅读次数:
101
准备 1、hadoop已部署(若没有可以参考:Centos7安装Hadoop2.7),集群情况如下(IP地址与之前文章有变动): 2、官网下载安装包:spark-2.4.4-bin-hadoop2.7.tgz(推荐去清华大学或中科大的开源镜像站)。 3、spark将部署在三台都已存在的路径/myda ...
分类:
其他好文 时间:
2019-12-20 15:28:51
阅读次数:
130
现象:hdp的集群没有配置spak的临时本地目录,默认在跑程序的时候会将中间过程的文件存放在本地的/tmp目录下 如果跑的spark数据量过大,就会导致/tmp下文件过大,最终导致根分区被占满,系统崩溃 解决办吧:修改spark的环境变量配置文件,在ambari界面上找到spark-env.sh的配 ...
分类:
其他好文 时间:
2019-12-20 12:12:42
阅读次数:
211
SQL on Hadoop 技术 | 备注 | Apache Hive | Cloudera Impala | Facebook Presto | Apache Drill | Spark SQL | Apache Phoenix | ...
分类:
数据库 时间:
2019-12-20 01:16:13
阅读次数:
124
数据结构:时间戳,省份,城市,用户,广告,中间字段使用空格分割。 样本如下: 1516609143867 6 7 64 16 1516609143869 9 4 75 18 1516609143869 1 7 87 12 package Spark02 import org.apache.spark ...
分类:
其他好文 时间:
2019-12-19 18:55:54
阅读次数:
129