前言 在一个完整的大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统,而这些辅助工具在hadoop生态体系中都有便捷的开源框架,如图所示: 1. 日志采集框架Flume 1.1 Flume介绍 1.1.1 概 ...
分类:
Web程序 时间:
2017-12-01 17:42:24
阅读次数:
292
1、 安装flumeflume安装,解压后修改flume_env.sh配置文件,指定java_home即可。cp hdfs jar包到flume lib目录下(否则无法抽取数据到hdfs上):$ cp /opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6/share/hadoop... ...
分类:
Web程序 时间:
2017-11-26 11:09:58
阅读次数:
253
摘自:https://flume.apache.org/FlumeUserGuide.html 是什么: Flume是一个用来收集聚合海量多来源日志数据并转移到一个数据存储中心的分布式,可依赖,高可用,高性能服务框架。他基于流数据提供简单灵活的架构。具有健壮性,容错性。他提供了一个简单可扩展的数据模 ...
分类:
Web程序 时间:
2017-11-22 17:47:36
阅读次数:
224
flume 整合 kafka: flume 采集业务日志,发送到kafka 安装部署Kafka Download 1.0.0 is the latest release. The current stable version is 1.0.0. You can verify your downloa ...
分类:
Web程序 时间:
2017-11-22 17:42:32
阅读次数:
302
Flume单机版环境搭建 搭建步骤: 1.环境准备:在win7系统 内存(8G)的硬件环境下,搭建1台centOS虚拟机 1.1给机器配置主机名(ip需要固定) 1.2 Xshell远程命令连接上该虚拟机 1.3 为该台虚拟机配置用户/密码登录 2.配置jdk 2.1指定目录下解压jdk压缩包 # ...
分类:
Web程序 时间:
2017-11-16 23:59:36
阅读次数:
527
采集数据到kafka,然后再通过flume将数据保存到hdfs上面。在这个过程当中出现了一堆的问题。 (1)一直是提醒说必须指定topic,然后发现我kafka用的是0.9.0.1,然而我的flume用的是1.6.然后将flume的版本调为1.7之后问题解决了。 (2)flume能够正常启动。然而这 ...
分类:
Web程序 时间:
2017-11-15 22:06:39
阅读次数:
397
https://github.com/cloudera/flume/blob/master/flume-docs/src/docs/UserGuide/Introduction ...
分类:
其他好文 时间:
2017-11-11 11:37:26
阅读次数:
240
SaltStack 调用API WAF安全 nginx_lua WAF Logstash flume fluentd logstash 实时: stom kafka 架构: flume + stom + kafka + hdfs 应用部署更新 rundesk Piwik流量分析 piwik Zabb ...
分类:
其他好文 时间:
2017-11-10 18:48:27
阅读次数:
207
1、Kafka概览 Apache下的项目Kafka(卡夫卡)是一个分布式流处理平台,它的流行是因为卡夫卡系统的设计和操作简单,能充分利用磁盘的顺序读写特性。kafka每秒钟能有百万条消息的吞吐量,因此很适合实时的数据流处理。例如kafka在线日志收集系统可作为flume的实时消息sink端,再通过k ...
分类:
其他好文 时间:
2017-11-10 17:01:22
阅读次数:
344
a1.sources = r1 a1.sinks = s1 a1.channels = c1 a1.sources.r1.type = netcat a1.sources.r1.bind = localhost a1.sources.r1.port = 44444 a1.sinks.s1.type ...
分类:
Web程序 时间:
2017-11-07 19:49:39
阅读次数:
227