先达到极限,然后再突破它 HA高可用 HA概述 所谓HA(High Available),即高可用(7*24小时不中断服务)。 实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA。 Hadoop2.0之前,在HDFS集群中NameNode存在 ...
分类:
其他好文 时间:
2020-07-10 17:23:12
阅读次数:
61
集群启动顺序: NameNode启动 NameNode启动时,首先将镜像文件(Fsimage)载入内存,并执行编辑日志(Edits)中的各项操作。一旦在内存中成功建立文件系统元数据的映像,则创建一个新的Fsimage文件和一个空的编辑日志。此时,NameNode开始监听DataNode请求。这个过程 ...
分类:
其他好文 时间:
2020-07-10 00:43:16
阅读次数:
97
package com.baway.loginfaildetect import java.util import org.apache.flink.cep.PatternSelectFunctionimport org.apache.flink.cep.scala.{CEP, PatternStr ...
分类:
其他好文 时间:
2020-07-10 00:15:34
阅读次数:
92
package com.sjw.hbase; import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.*;import org.apache.hadoop.hbase.client.*;import org ...
承接上一篇,NoSQL实验 MapReduce实验 如何在Eclipse中运行MapReduce程序,参考厦大数据库实验室博客 总体代码: package org.apache.hadoop.examples; import java.io.IOException; import java.util ...
分类:
其他好文 时间:
2020-07-09 15:08:03
阅读次数:
127
@ 单点启动 如果集群是第一次启动,需要格式化NameNode hadoop namenode -format 在某一台机器上启动NameNode节点 hadoop-daemon.sh start namenode 在其他机器上启动DataNode节点 hadoop-daemon.sh start ...
分类:
其他好文 时间:
2020-07-09 00:37:06
阅读次数:
119
问题出在了我多次格式化导致namenode启动不了这时候就需要删除原目录,即core-site.xml下配置的hadoop.tmp.dir所指向的目录,重新建立配置的空目录 格式化namdenode,hadoop namenode -format再重新运行start-all.sh启动成功后再jps测 ...
分类:
其他好文 时间:
2020-07-08 13:26:55
阅读次数:
65
Linux部分 ①列举你使用的常用指令? ②怎么查看服务是否开启?后面的参数都是什么意思? ③怎么查看服务器内存使用情况? ④日志查看指令? ⑤跨机房怎么传输文件? Hadoop部分 ①怎么搭建一个Hadoop集群? ②Hadoop的Shuffer机制? ③切片概念?文件256M时,几个切片? ④M ...
分类:
其他好文 时间:
2020-07-08 13:03:03
阅读次数:
59
1.分区的作用 RDD 使用分区来分布式并行处理数据, 并且要做到尽量少的在不同的 Executor 之间使用网络交换数据, 所以当使用 RDD 读取数据的时候, 会尽量的在物理上靠近数据源, 比如说在读取 Cassandra 或者 HDFS 中数据的时候, 会尽量的保持 RDD 的分区和数据源的分 ...
分类:
其他好文 时间:
2020-07-07 13:11:09
阅读次数:
164