一、Kafka介绍 Kafka是一个开源的分布式消息引擎/消息中间件,同时Kafka也是一个流处理平台。Kakfa支持以发布/订阅的方式在应用间传递消息,同时并基于消息功能添加了Kafka Connect、Kafka Streams以支持连接其他系统的数据(Elasticsearch、Hadoop等 ...
分类:
系统相关 时间:
2020-04-23 12:02:24
阅读次数:
86
ZooKeeper 简介 ZooKeeper 是一个分布式的、开放源码的分布式应用程序协调服务,是 Google 的 Chubby 一个开源的实现,是 Hadoop 和 Hbase 的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。Zoo ...
分类:
其他好文 时间:
2020-04-22 16:49:02
阅读次数:
66
import org.apache.hadoop.hbase.io.ImmutableBytesWritable import org.apache.hadoop.hbase.mapreduce.TableOutputFormat import org.apache.hadoop.hbase.cli ...
分类:
其他好文 时间:
2020-04-22 09:54:55
阅读次数:
108
import org.apache.hadoop.hbase.HBaseConfiguration import org.apache.hadoop.hbase.mapreduce.TableInputFormat import org.apache.hadoop.hbase.util.Bytes ...
分类:
其他好文 时间:
2020-04-22 09:16:07
阅读次数:
55
一:自定义数据类 为什么需要自定义数据类 上一篇文章里面我们自己写了一个mapreduce 里面的Top N的https://www.cnblogs.com/wuxiaolong4/p/12733518.html,我们可以从代码里面看出来,里面用|作分隔符,这种方法不好,会由于你自己的失误导致读取字 ...
分类:
其他好文 时间:
2020-04-19 23:46:13
阅读次数:
104
1. Java Download the Java 1.8 64 bit version from https://java.com/en/download/ If not 64 bit java there will be error when start resource node manage ...
0x00 java环境配置 Hadoop需要java环境,首先检测是否存在java环境: java –version 如果没有,则需要去Oracle官网下载jdk: https://www.oracle.com/cn/java/technologies/javase-jdk8-downloads.h ...
分类:
系统相关 时间:
2020-04-19 13:00:02
阅读次数:
84
HBase的前提条件: JDK SSH Hadoop JDK:Hadoop和JDK运行的环境,他们的守护进程运行在JVM下。HBase支持JDK 1.6以上的版本。比如: jdk-8u161-linux-x64.rpm。 SSH:实现简单的服务器与主机的通信。在集群中,只有启动sshd后,才可以通过 ...
分类:
系统相关 时间:
2020-04-19 00:46:23
阅读次数:
101
安装前准备: 1.3台主机 2.安装jdk 3.免密登陆 开始安装spark 1.解压安装包 tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz 2.修改配置文件 cd conf cp spark-env.sh.template spark-env.shcp slaves ...
分类:
其他好文 时间:
2020-04-19 00:31:12
阅读次数:
85
如何对NameNode中数据持久化 FsImage:保存NameNode当前这一时刻数据状态 Editslog:日志文件,只记录client到hdfs写操作(二进制文件) Editslog和FsImage会定期合并,这项任务由SecondNameNode执行,当在合并的时候,客户端执行的写操作不再写 ...
分类:
其他好文 时间:
2020-04-18 12:14:46
阅读次数:
64