安装前准备: 1.3台主机 2.安装jdk 3.免密登陆 开始安装spark 1.解压安装包 tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz 2.修改配置文件 cd conf cp spark-env.sh.template spark-env.shcp slaves ...
分类:
其他好文 时间:
2020-04-19 00:31:12
阅读次数:
85
有两种模式:cluster 和 driver 区别: cluster 模式:Driver 程序在 YARN 中运行,应用的运行结果不能在客户端显示,所以最好运行那些将结果最终保存在外部存储介质(如 HDFS、Redis、Mysql)而非 stdout 输出的应用程序,客户端的终端显示的仅是作为 YA ...
分类:
其他好文 时间:
2020-04-17 12:30:05
阅读次数:
70
问题:如果在 shuffle 的时候没有指定 reduce 的个数,那么会有多少个 reduce? 如果不指定 reduce 个数的话,就按默认的走: 1、如果自定义了分区函数 partitioner 的话,就按你的分区函数来走。 2、如果没有定义,那么如果设置了 spark.default.par ...
分类:
其他好文 时间:
2020-04-17 12:23:45
阅读次数:
70
一、前提条件 1、3台虚拟机,java1.8环境配置,hadoop-2.7.7集群搭建(参见https://www.cnblogs.com/yangy1/p/12362565.html,以及https://www.cnblogs.com/yangy1/p/12367462.html中的横向扩容) 2 ...
分类:
其他好文 时间:
2020-04-17 00:28:41
阅读次数:
83
一、前提条件 1.1创建3台虚拟机,且配置好网络,建立好互信。 1.2 Java1.8环境已经配置好 1.3 Hadoop2.7.7集群已经完成搭建,具体参见我的博客https://www.cnblogs.com/theyang/p/12363276.html 1.4 Scala软件包和Spark软 ...
分类:
其他好文 时间:
2020-04-17 00:23:32
阅读次数:
85
Hadoop安装,在格式化时有错误 [Fatal Error] core-site.xml:1:8: Element type "meNode" must be followed by either attribute specifications, ">" or "/>".20/04/16 10: ...
分类:
其他好文 时间:
2020-04-17 00:15:56
阅读次数:
105
这里以将Apache的日志写入到ElasticSearch为例,来演示一下如何使用Python将Spark数据导入到ES中。 实际工作中,由于数据与使用框架或技术的复杂性,数据的写入变得比较复杂,在这里我们简单演示一下。 如果使用Scala或Java的话,Spark提供自带了支持写入ES的支持库,但 ...
分类:
编程语言 时间:
2020-04-17 00:06:51
阅读次数:
83
1.前提条件 1.1创建3台虚拟机,且配置好网络,建立好互信(ssh免密)。 1.2 Java1.8环境已经配置好 1.3 Hadoop集群已经完成搭建 1.4 Scala软件包和Spark软件包的下载 https://www.scala-lang.org/download/ http://spar ...
分类:
其他好文 时间:
2020-04-17 00:05:12
阅读次数:
66
准备工作 需要先安装好Zookeeper集群和Hadoop集群 Zookeeper集群启动 Hadoop集群启动 HBase集群搭建 HBase解压 配置文件 hbase env.sh hbase site.xml regionservers 将hadoop的hdfs site.xml和core s ...
分类:
其他好文 时间:
2020-04-16 19:33:00
阅读次数:
61
# 二面:1. TCP和UDP的区别?1. 滑动窗口协议?1. 为啥TCP比UDP占用资源多?1. TCP报文格式?1. 然后又问了一下数据库的东西1. 简单问了一下数据库事务的四大特性。1. 首先是Spark怎么进行性能调优1. 过程中遇到过什么问题,怎么解决的1. 数据量有多大等1. 类似于合并... ...
分类:
编程语言 时间:
2020-04-16 15:21:08
阅读次数:
70