1,日志的采集从flumeagent上的数据一般分到两条线上一条是kafka集群,后期可以用流式处理(sparkstreaming或storm等等)一条是到hdfs,后期可以用hive处理,业界叫lambda架构architecture(一般公司的推荐系统,就是用这种架构)flume-ngagent采集收集日志后,聚合在一个节点上..
分类:
其他好文 时间:
2017-09-20 23:26:56
阅读次数:
216
一 、安装集群软件 必须软件pcs,pacemaker,corosync,fence-agents-all,如果需要配置相关服务,也要安装对应的软件。 二、配置防火墙1、禁止防火墙和selinux# systemctl disable firewalld# systemctl stop firewa ...
分类:
其他好文 时间:
2017-09-18 14:46:05
阅读次数:
215
Flume Sink的目的是从Flume Channel中获取数据然后输出到存储或者其他Flume Source中。Flume Agent启动的时候,它会为每一个Sink都启动一个SinkRunner的对象,SinkRunner.start()方法会启动一个新的线程去管理每一个Sink的生命周期。每 ...
分类:
Web程序 时间:
2017-09-13 23:18:54
阅读次数:
325
特性 (1)、no agents:不需要在被管控主机上安装任何客户端; (2)、no server:无服务器端,使用时直接运行命令即可; (3)、modules in any languages:基于模块工作,可使用任意语言开发模块; (4)、yaml,not code:使用yaml语言定制剧本pl ...
分类:
其他好文 时间:
2017-09-08 16:19:36
阅读次数:
156
2017-09-06 朱洁 大数据和云计算技术 任何一个生产系统在运行过程中都会产生大量的日志,日志往往隐藏了很多有价值的信息。在没有分析方法之前,这些日志存储一段时间后就会被清理。随着技术的发展和分析能力的提高,日志的价值被重新重视起来。在分析这些日志之前,需要将分散在各个生产系统中的日志收集起来 ...
分类:
Web程序 时间:
2017-09-06 12:58:57
阅读次数:
338
一、概述1.通过搭建高可用flume来实现对数据的收集并存储到hdfs上,架构图如下:二、配置Agent1.catflume-client.properties#namethecomponentsonthisagent声明source、channel、sink的名称
a1.sources=r1
a1.sinks=k1k2
a1.channels=c1
#Describe/configurethesource声明sour..
分类:
Web程序 时间:
2017-09-04 15:13:56
阅读次数:
371
#配置文 a1.sources= r1 a1.sinks= k1 k2 a1.channels= c1 c2 #Describe/configure the source a1.sources.r1.type = avro a1.sources.r1.bind = slave3 a1.sources... ...
分类:
Web程序 时间:
2017-09-03 13:16:02
阅读次数:
285
1. Flume简介 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 当前Flume有两个版本Flume 0. ...
分类:
Web程序 时间:
2017-09-02 16:47:41
阅读次数:
912
目标:Flume实时监控目录sink到hdfs,再用sparkStreaming监控hdfs的这个目录,对数据进行计算 1、flume的配置,配置spoolDirSource_hdfsSink.properties,监控本地的一个目录,上传到hdfs一个目录下。 agent1.channels = ...
分类:
Web程序 时间:
2017-09-02 10:39:54
阅读次数:
315
1,项目图如下: 2, 实现过程 启动zookeeper(三台): 启动kafka(三台): 在131中创建access的topic: 查看创建的主题: 启动flume: ...
分类:
其他好文 时间:
2017-09-01 23:06:18
阅读次数:
185