作者Michael G. Noll是瑞士的一位工程师和研究员,效力于Verisign,是Verisign实验室的大规模数据分析基础设施(基础Hadoop)的技术主管。本文,Michael详细的演示了如何将Kafka整合到Spark Streaming中。 期间,...
分类:
其他好文 时间:
2015-03-03 16:51:30
阅读次数:
209
作者Michael G. Noll是瑞士的一位工程师和研究员,效力于Verisign,是Verisign实验室的大规模数据分析基础设施(基础Hadoop)的技术主管。本文,Michael详细的演示了如何将Kafka整合到Spark Streaming中。 期间, Michael还提到了将Kafka整合到 Spark Streaming中的一些现状,非常值得阅读,虽然有一些信息在Spark 1.2版...
分类:
其他好文 时间:
2015-03-03 15:11:59
阅读次数:
269
最后提及两个agent。首先第一个是使用一个avro souce和一个avro sink向另一个agent传递event,然后再写入特定目录。 先看看配置代码。 agent6.sources = avrosource //定义avrosource,可以使用avro client在网络上向其传...
分类:
Web程序 时间:
2015-03-02 12:33:12
阅读次数:
191
apache下一个版本(1.6)将会带来一个新的组件KafKaChannel,顾名思义就是使用kafka做channel,当然在CDH5.3版本已经存在这个channel。 大伙知道,常用的channel主要有三个: 1、memory channel:用内存做channel,优点是速度最快,...
分类:
Web程序 时间:
2015-03-01 19:38:20
阅读次数:
238
今天继续讨论几个agent的配置。 第一个agent是从终端捕获特定命令执行的输出结果,并将文件输出到特定目录。先看一下配置的代码: agent2.sources = execsource //指定为从命令获取输出的sourceagent2.sinks = filesink ...
分类:
Web程序 时间:
2015-03-01 13:07:42
阅读次数:
148
首先介绍一下Flume是个神马东东。Flume可以实现从多种数据源获取数据,然后传递到不同的目标路径。通常是利用Flume传送logs到不同的地方,例如从web server收集logs文件然后传送到hadoop cluster进行分析之类的。Flume配置灵活简单,可以实现不同情况的日志传送...
分类:
Web程序 时间:
2015-02-28 13:01:20
阅读次数:
165
flume-ng 1.5 新增一个Spillable memory channel :http://www.tuicool.com/articles/i2mUfqb虽然可以在sink阻塞时候,把event存入file channel,且file channel在flume崩溃再启动时能恢复数据,但是...
分类:
Web程序 时间:
2015-02-26 14:37:25
阅读次数:
261
一、FlumeNG核心概念二、FlumenNG数据流模型Flume以agent为最小的独立运行单位。一个agent就是一个JVM。单agent由Source、Sink和Channel三大组件构成。Flume的数据流由事件(Event)贯穿始终。事件是Flume的基本数据单位,它携带日志数据(字节数组形式)并且携带有头信息,这些Eve..
分类:
Web程序 时间:
2015-02-26 00:09:32
阅读次数:
1266
broker.id 默认值:无每一个broker都有一个唯一的id,这是一个非负整数,这个id就是broker的"名字",这样就允许broker迁移到别的机器而不会影响消费者。你可以选择任意一个数字,只要它是唯一的。log.dirs 默认值:/tmp/kafka-logs一个用逗号分隔的目录列表,可...
分类:
其他好文 时间:
2015-02-25 12:57:28
阅读次数:
174
https://github.com/flsusp/http-queuehttps://github.com/sfr-network-service-platforms/hq-consolehttps://github.com/btoddb/flume-ng-hornetq-channelhttps...
分类:
Web程序 时间:
2015-02-24 18:36:28
阅读次数:
164