# example.conf: A single-node Flume configuration# Name the components on this agenta1.sources = r1a1.sinks = k1a1.channels = c1# Describe/configure t...
分类:
Web程序 时间:
2015-05-07 21:55:30
阅读次数:
140
常用的分布式日志收集系统:Apache Flume、Facebook Scribe、Apache Chukwa1、Flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG(original generation)...
分类:
Web程序 时间:
2015-05-07 16:30:07
阅读次数:
248
Storm0.9.4安装 - OPEN 开发经验库bin/zkServer.sh start /home/guym/down/kafka_2.8.0-0.8.0/config/zookeeper.properties&bin/kafka-server-start.sh config/server.p...
分类:
其他好文 时间:
2015-05-06 20:57:48
阅读次数:
204
数据文件的分段 Kafka解决查询效率的手段之一是将数据文件分段,比如有100条Message,它们的offset是从0到99。假设将数据文件分成5段,第一段为0-19,第二段为20-39,以此类推,每段放在一个单独的数据文件里面,...
分类:
其他好文 时间:
2015-05-06 15:31:33
阅读次数:
118
数据文件的分段Kafka解决查询效率的手段之一是将数据文件分段,比如有100条Message,它们的offset是从0到99。假设将数据文件分成5段,第一段为0-19,第二段为20-39,以此类推,每段放在一个单独的数据文件里面,数据文件以该段中最小的offset命名。这样在查找指定offset的Messa..
分类:
其他好文 时间:
2015-05-06 15:20:35
阅读次数:
131
数据文件的分段
Kafka解决查询效率的手段之一是将数据文件分段,比如有100条Message,它们的offset是从0到99。假设将数据文件分成5段,第一段为0-19,第二段为20-39,以此类推,每段放在一个单独的数据文件里面,数据文件以该段中最小的offset命名。这样在查找指定offset的Message的时候,用二分查找就可以定位到该Message在哪个段中。
为数据文件建索引
...
分类:
其他好文 时间:
2015-05-06 15:09:04
阅读次数:
119
1.背景最近因为工作需要,调研了追求高吞吐的轻量级消息系统Kafka,打算替换掉线上运行的ActiveMQ,主要是因为明年的预算日流量有十亿,而ActiveMQ的分布式实现的很奇怪,所以希望找一个适合分布式的消息系统。以下是内容是调研过程中总结的一些知识和经验,欢迎拍砖。2.基础知识2.1.什么是消...
分类:
其他好文 时间:
2015-05-06 14:46:25
阅读次数:
175
bin/zkServer.sh start /home/guym/down/kafka_2.8.0-0.8.0/config/zookeeper.properties&bin/kafka-server-start.sh config/server.propertiesbin/kafka-create...
分类:
Web程序 时间:
2015-05-06 14:34:37
阅读次数:
236
既然包名是api,说明里面肯定都是一些常用的Kafka API了。一、ApiUtils.scala顾名思义,就是一些常见的api辅助类,定义的方法包括:1. readShortString: 从一个ByteBuffer中读取字符串长度和字符串。这个ByteBuffer的格式应该是:2个字节的字符串长...
在基于Hadoop平台的很多应用场景中,我们需要对数据进行离线和实时分析,离线分析可以很容易地借助于Hive来实现统计分析,但是对于实时的需求Hive就不合适了。实时应用场景可以使用Storm,它是一个实时处理系统,它为实时处理类应用提供了一个计算模型,可以很容易地进行编程处理。为了统一离线和实时计...
分类:
其他好文 时间:
2015-05-06 12:37:56
阅读次数:
181