1、Flume 2、Flume角色 3、flume使用 4、flume安装配置 5、flume监听端口 6、flume监听本地linux文件采集到hdfs 7、监听文件夹 8、多个channel/sink ...
分类:
Web程序 时间:
2019-03-09 19:01:45
阅读次数:
214
准备环境: 三台centos7虚拟机(Node-1,Node-2,Node-3) 配置虚拟机网络,保证三台机器可以互相ping通,并且和宿主机可以互相ping通。如果仅仅是作为虚拟机学习,可以关闭防火墙,避免后面的RPC端口或者web端口无法正常访问。 创建普通用户dtouding 安装jdk环境。 ...
分类:
其他好文 时间:
2019-03-07 20:55:17
阅读次数:
248
bin 下格式化ZKFC,命令./hdfs zkfc -formatZK,报HA is not enable for this namenode错误,如下图 经过检查hdfs_site.xml文件,发现配置错误,因为后面配置的都是nn1,nn2,而红框处,应该也是nn1,nn2,此处要保持前后一致( ...
分类:
其他好文 时间:
2019-03-04 09:15:56
阅读次数:
740
Hive 背景 引入原因 对存在HDFS上的文件或HBase中的表进行查询时,是要手工写一推MapReduce代码 对于统计任务,只能由懂MapReduce的程序员才能搞定 耗时耗力,更多精力没有有效的释放出来 Hive基于一个统一的查询分析层,通过SQL语句的方式对HDFS上的数据进行查询、统计和 ...
分类:
其他好文 时间:
2019-03-03 16:14:12
阅读次数:
140
namenode在内存和磁盘中都保存了fsimage和edits文件 内存中保证hdfs文件系统的访问效率,磁盘中保证hdfs文件系统的安全性 namenode的文件组成: fsimage文件:保存文件系统中直至上次checkpoint为止 的目录和文件元数据 edits文件:保存文件系统中直至上次 ...
分类:
其他好文 时间:
2019-03-01 17:13:53
阅读次数:
213
如图: 是通过网上提供的ISO 镜像文件进行的安装,不过没能使用 JDK安装好后,配置环境变量, 格式化hdfs namenode -format 运行案例PI 遇到异常: 配置hostname ,主机名称要和配置文件一致 这个问题是配置文件中没有修改为主机名称host160 此问题是配置文件 需要 ...
分类:
其他好文 时间:
2019-02-28 18:24:59
阅读次数:
196
分布式存储已经研究很多年,但直到近年来,伴随着谷歌、亚马逊和阿里等互联网公司云计算和大数据应用的兴起,它才大规模应用到工程实践中。如谷歌的分布式文件系统GFS、分布式表格系统googleBigtable,亚马逊的对象存储AWS,阿里的TFS等都是很好的代表,同时也催生了一大批优秀的开源分布式存储系统,包括ceph、swift、Lustre和glusterfs等。分布式存储系统分布式存储按其存储接口
分类:
其他好文 时间:
2019-02-27 20:41:33
阅读次数:
235
首先介绍一下在flume中常用的一个数据格式,以及使用该格式的优缺点: 从flume写数据到hdfs中的时候,使用二进制格式相对于使用纯文本来说是一种更好的选择,因为大多数二进制格式都有一些方法指明记录中损坏或者不完整等的问题。 二进制记录有助于检测他们并将这些不正确的记录进行忽略,例如flume中 ...
分类:
Web程序 时间:
2019-02-27 01:21:18
阅读次数:
193
"一、HDFS概念" "二、HDFS优缺点" "三、HDFS如何存储" 一、HDFS概念 HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服 ...
分类:
其他好文 时间:
2019-02-25 23:21:01
阅读次数:
222