1.框架选型 hadoop 3.1.3 hive 3.1.2 zookeeper 3.5.7 hbase 2.2.3 kafka_2.11 2.4.0 spark 2.4.5 bin hadoop2.7 2.安装前准备 1.关闭防火墙 2.安装 JDK 3.安装 Scala 4.配置ssh 免密 5 ...
分类:
其他好文 时间:
2020-03-30 00:06:39
阅读次数:
66
一、数据规模 二、集群处理数据的吞吐量 2.1 hdfs的读写测试 Hadoop自带一个测试用的jar包,可以运行它来得知集群处理数据的性能如何 hadoop jar /opt/module/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-c ...
分类:
其他好文 时间:
2020-03-29 12:35:17
阅读次数:
225
前言 准备: 7Zip下载:压缩工具,支持*.tar.gz格式的压缩文件解压 Hadoop下载:http://archive.apache.org/dist/hadoop/core/,笔者选择3.0.0版本下载,官网下载的网速如同断网。。。 winutils下载:https://github.com ...
HDFS写数据的流程 HDFS shell上传文件a.txt,300M 对文件分块,默认每块128M。 shell向NameNode发送上传文件请求 NameNode检测文件系统目录树,看能否上传 NameNode向shell发送允许上传通知 shell向NameNode发送上传block1,备份为 ...
分类:
其他好文 时间:
2020-03-29 01:09:38
阅读次数:
66
(1)Hadoop1.x和2.x之间的区别 Hadoop 1.0内核主要由两个分支组成:MapReduce和HDFS,在高可用、扩展性等方面存在问题 1)HDFS存在的问题 1.NameNode单点故障,难以应用于在线场景。 2.NameNode压力过大,且内存受限,影响扩展性。 2)MapRedu ...
分类:
其他好文 时间:
2020-03-28 17:42:52
阅读次数:
69
本文参考 关于环境搭建,imooc上关于hadoop、hbase、spark等课程上有很多环境搭建的例子,但是有些并没有说明为什么选择这个的版本,我们知道这些开源的技术发展很快,所以有必要搞清楚如何对它们进行版本选择 环境 spark 2.2.0 + scala 2.11.8 + hbase1.3.... ...
分类:
其他好文 时间:
2020-03-28 13:35:54
阅读次数:
84
之前用java做Hadoop相关项目没有遇到这种问题,今天使用python操作HDFS遇到这个问题,首先是权限之类的问题,在core site.xml中配置可以访问的hosts和groups, 具体: 注意xxx是管理用户名,然而我配置之后仍然出现not allowed错误,心想如果是我连接的这个用 ...
分类:
其他好文 时间:
2020-03-28 13:19:33
阅读次数:
72
1.1 业务数据全部存储在datanode上面,所以datanode的存储空间必须足够大,且每个datanode的存储空间尽量保持一致。1.2 管理节点/namenode对存储空间要求不高,主要存储各计算节点datanode的元数据信息,以3个datanode为例,每个datanode存储2T的数据... ...
分类:
其他好文 时间:
2020-03-27 23:28:42
阅读次数:
150
Hadoop 02 核心介绍 1. HDFS HDFS(Hadoop Distributed File System) 是一个 Apache Software Foundation 项目, 是 Apache Hadoop 项目的一个子项目. Hadoop 非常适于存储大型数据 (比如 TB 和 PB ...
分类:
其他好文 时间:
2020-03-27 11:15:08
阅读次数:
64
目录 6.2 Zookeeper在大型分布式系统中的应用 6.2.1 Hadoop YARN介绍 如何解决ResourceManager单点问题,实现高可用? 6.2.3 Kafka 术语介绍 问题 Kafka与Zookeeper Broker注册管理 Topic注册管理 生产者负载均衡 消费者负载 ...
分类:
其他好文 时间:
2020-03-27 10:40:50
阅读次数:
117