@ 单点启动 如果集群是第一次启动,需要格式化NameNode hadoop namenode -format 在某一台机器上启动NameNode节点 hadoop-daemon.sh start namenode 在其他机器上启动DataNode节点 hadoop-daemon.sh start ...
分类:
其他好文 时间:
2020-07-09 00:37:06
阅读次数:
119
问题出在了我多次格式化导致namenode启动不了这时候就需要删除原目录,即core-site.xml下配置的hadoop.tmp.dir所指向的目录,重新建立配置的空目录 格式化namdenode,hadoop namenode -format再重新运行start-all.sh启动成功后再jps测 ...
分类:
其他好文 时间:
2020-07-08 13:26:55
阅读次数:
65
Concept http://spark.apache.org/streaming/ Spark Streaming makes it easy to build scalable fault-tolerant streaming applications. Ease of Use Build ap ...
分类:
其他好文 时间:
2020-07-08 13:26:09
阅读次数:
59
repartition repartition 有三个重载的函数: 1) def repartition(numPartitions: Int): DataFrame /** * Returns a new [[DataFrame]] that has exactly `numPartitions` ...
分类:
数据库 时间:
2020-07-08 13:17:49
阅读次数:
93
Linux部分 ①列举你使用的常用指令? ②怎么查看服务是否开启?后面的参数都是什么意思? ③怎么查看服务器内存使用情况? ④日志查看指令? ⑤跨机房怎么传输文件? Hadoop部分 ①怎么搭建一个Hadoop集群? ②Hadoop的Shuffer机制? ③切片概念?文件256M时,几个切片? ④M ...
分类:
其他好文 时间:
2020-07-08 13:03:03
阅读次数:
59
Spark 源码解读(五)SparkContext的初始化之创建和启动DAGScheduler DAGScheduler主要用于在任务正式提交给TaskSchedulerImpl提交之前做一些准备工作,包括:创建job,将DAG中的RDD划分到不同的Stage,提交Stage等等。SparkCont ...
分类:
其他好文 时间:
2020-07-07 23:39:16
阅读次数:
102
1.分区的作用 RDD 使用分区来分布式并行处理数据, 并且要做到尽量少的在不同的 Executor 之间使用网络交换数据, 所以当使用 RDD 读取数据的时候, 会尽量的在物理上靠近数据源, 比如说在读取 Cassandra 或者 HDFS 中数据的时候, 会尽量的保持 RDD 的分区和数据源的分 ...
分类:
其他好文 时间:
2020-07-07 13:11:09
阅读次数:
164
Flink 的安装和部署主要分为本地(单机)模式和集群模式,其中本地模式只需直接解压就可以使用,不以修改任何参数,一般在做一些简单测试的时候使用。本地模式在我们的 课程里面不再赘述。集群模式包含: u Standalone。 u Flink on Yarn。 u Mesos。 u Docker。 u ...
分类:
其他好文 时间:
2020-07-07 12:56:50
阅读次数:
58
本文已收录GitHub,更有互联网大厂面试真题,面试攻略,高效学习资料等近些年来,开源流处理领域涌现出了很多优秀框架。光是在Apache基金会孵化的项目,关于流处理的大数据框架就有十几个之多,比如早期的ApacheSamza、ApacheStorm,以及这两年火爆的Spark以及Flink等。应该说,每个框架都有自己独特的地方,也都有自己的缺陷。面对这众多的流处理框架,我们应该如何选择呢?在本文汇
分类:
其他好文 时间:
2020-07-07 11:38:26
阅读次数:
67