ZooKeeper 简介 ZooKeeper 是一个分布式的、开放源码的分布式应用程序协调服务,是 Google 的 Chubby 一个开源的实现,是 Hadoop 和 Hbase 的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。Zoo ...
分类:
编程语言 时间:
2019-11-20 15:29:06
阅读次数:
93
api 调用发现错误 Mon Nov 18 23:04:31 CST 2019, RpcRetryingCaller{globalStartTime=1574089469858, pause=100, retries=35}, org.apache.hadoop.hbase.MasterNotRun ...
常见端口汇总:Hadoop: 50070:HDFS WEB UI端口 8020 : 高可用的HDFS RPC端口 9000 : 非高可用的HDFS RPC端口 8088 : Yarn 的WEB UI 接口 8485 : JournalNode 的RPC端口 8019 : ZKFC端口 19888:j ...
分类:
其他好文 时间:
2019-11-18 20:10:58
阅读次数:
79
Apache Hive支持Apache Hadoop中使用的几种熟悉的文件格式,如TextFile,RCFile,SequenceFile,AVRO,ORC和Parquet格式。 Cloudera Impala也支持这些文件格式。 在建表时使用STORED AS (TextFile|RCFile|S ...
分类:
其他好文 时间:
2019-11-18 18:42:00
阅读次数:
109
环境介绍 | tuge1 | tuge2 | tuge3 | tuge4 | | | : | | | | NameNode | NameNode | DataNode | DataNode | | ZooKeeper | ZooKeeper | ZooKeeper | ZooKeeper | | | ...
分类:
其他好文 时间:
2019-11-18 18:31:53
阅读次数:
80
1. 什么是DistCp DistCp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝。由于使用了Map/Reduce方法,这个工具在语义和执行 ...
分类:
其他好文 时间:
2019-11-18 16:50:54
阅读次数:
215
Hadoop - 简介 Hadoop可运行于一般的商用服务器上,具有高容错、高可靠性、高扩展性等特点 特别适合写一次,读多次的场景 适合 大规模数据 流式数据(写一次,读多次) 商用硬件(一般硬件) 不适合 低延时的数据访问 大量的小文件 频繁修改文件(基本就是写1次) Hadoop架构 HDFS: ...
分类:
其他好文 时间:
2019-11-18 15:36:10
阅读次数:
90
一、概述 HUE是一个开源的Apache Hadoop UI系统,早期由Cloudera开发,后来贡献给开源社区。它是基于Python Web框架Django实现的。通过使用Hue我们可以通过浏览器方式操纵Hadoop集群。 ...
分类:
Web程序 时间:
2019-11-17 21:05:34
阅读次数:
74
下面是hive基本练习,持续补充中。 简述Hive工作原理 hive是基于hadoop,可以管理hdfs上的数据的工具,它本质上是执行MapReduce程序,只是使用了类sql语句更加方便开发,hive驱动器会将类sql语句转换成MapReduce的task来执行,因此执行速度会比较慢。 hive的 ...
分类:
其他好文 时间:
2019-11-17 20:43:37
阅读次数:
82
1. 什么是Flink? 1.1 4代大数据计算引擎 第一代: MapReducer 批处理 Mapper, Reducer Hadoop的MapReducer将计算分为两个阶段, 分别为Map和Reducer. 对于上层应用来说, 就不得不想方设法去拆分算法, 甚至于不得不在上层应用实现多个Job ...
分类:
其他好文 时间:
2019-11-17 17:29:10
阅读次数:
62