Agent的配置文件最好根据Flume的拓扑架构,依次写好每个节点的配置文件; 一.Agent 开头都是先要定义agent,sorce,channel,sink名 # Name the components on this agent( 描述这个Agent,给各个组件取名字) a1.sources ...
分类:
Web程序 时间:
2020-07-06 01:18:20
阅读次数:
133
存储相关知识 存储 https://blog.csdn.net/pansaky/article/details/83626183 https://blog.csdn.net/hxl_1993/article/details/62896197 HDFS Ceph GFS GPFS Swift 应用场景... ...
分类:
其他好文 时间:
2020-07-05 13:41:16
阅读次数:
81
##1. 引入jar包时排除掉jar包冲突 <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-hdfs</artifactId> <version>${hadoop-version}</version> <exc ...
分类:
其他好文 时间:
2020-07-05 13:24:51
阅读次数:
48
承接上一篇HDFS实验,学习入门课后的实验真的是以简单为主,后续估计得每个组件一一击破。 Hbase介绍 Hbase是一个分布式的、面向列的开源数据库,源于Google的一篇论文《BigTable:一个结构化的数据的分布式存储系统》。HBase中确定一个元素,需要提供表名,行,列族名,列。因为是以列 ...
分类:
其他好文 时间:
2020-07-05 10:24:53
阅读次数:
74
HDFS基本操作 hdfs dfsadmin查看命令 hdfs基本操作 查看目录 hdfs dfs -ls/ [-d] [-h] [-r] 大写 -d:将path作为一个普通文件输出文件信息 -h格式化输出文件及目录信息 -r递归列出目录下的内容 新建文件 创建 递归创建 hdfs dfs -mkd ...
分类:
其他好文 时间:
2020-07-04 17:09:04
阅读次数:
109
(1)MR程序提交到客户端所在的节点。(2)YarnRunner向ResourceManager申请一个Application。(3)RM将该应用程序的资源路径返回给YarnRunner。(4)该程序将运行所需资源提交到HDFS上。(5)程序资源提交完毕后,申请运行mrAppMaster。(6)RM ...
分类:
其他好文 时间:
2020-07-04 15:14:37
阅读次数:
54
一.Flume定义 ? Flume是Cloudera公司提供的一个高可用、高可靠、分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。 ? Flume最主要的作用就是,实时读取服务器的本地磁盘的数据,将数据写入到HDFS。 二.Flume基础架构 ? Flume基本组成架构如下 ...
分类:
Web程序 时间:
2020-07-03 23:51:14
阅读次数:
112
存储越困难,提取越容易 HDFS客户端操作 开发环境准备 步骤一:编译对应HadoopJar包,配置Hadoop变量 步骤二:创建Maven工程,导入pom依赖 <dependencies> <dependency> <groupId>junit</groupId> <artifactId>juni ...
分类:
其他好文 时间:
2020-07-03 17:56:31
阅读次数:
59
如果现在要想将flume中的sink设置为kafka,因为在实际的开发中,可能会有若干个子系统或者若干个客户端进行flume日志采集,那么能够承受这种采集任务量的只有kafka来完成,可是需要注意一个问题,现在的kafka是采用了Kerberos认证,所以要想在flume之中去使用kafka操作,就 ...
分类:
Web程序 时间:
2020-07-03 01:11:20
阅读次数:
154
HDFS实验 学习了中国MOOC上的《大数据技术原理与应用》,然后找到实验开始学习。我认为这门课被认为是入门的专业课是可以的,很多地方都只是一个简单的描述一下体系结构,工作方式等等,这就足够了,多了也听不懂。学习完了这门课,就是深似海的感觉,对讲的内容总是一知半解,可能自己理论确实不太行趴++ 但是 ...
分类:
其他好文 时间:
2020-07-02 21:59:02
阅读次数:
66