1.概述 在《Kafka实战-实时日志统计流程》一文中,谈到了Storm的相关问题,在完成实时日志统计时,我们需要用到Storm去消费Kafka Cluster中的数据,所以,这里我单独给大家分享一篇Storm Cluster的搭建部署。以下是今天的分享目录:Storm简述基础软件安装部署效果预览....
分类:
其他好文 时间:
2015-06-18 13:04:35
阅读次数:
125
本文分析的Kafka代码为kafka-0.8.2.1。另外,由于Kafka目前提供了两套Producer代码,一套是Scala版的旧版本;一套是Java版的新版本。虽然Kafka社区极力推荐大家使用Java版本的producer,但目前很多已有的程序还是调用了Scala版的API。今天我们就分析一下...
分类:
其他好文 时间:
2015-06-17 15:20:57
阅读次数:
145
Kafka[1]是linkedin用于日志处理的分布式消息队列,linkedin的日志数据容量大,但对可靠性要求不高,其日志数据主要包括用户行为(登录、浏览、点击、分享、喜欢)以及系统运行日志(CPU、内存、磁盘、网络、系统及进程状态)。当前很多的消息队列服务提供可靠交付保证,并默认是即时消费(不适...
分类:
其他好文 时间:
2015-06-17 11:04:37
阅读次数:
132
依旧和大家一起看一下官网的内容:
http://flume.apache.org/
·增加了apache kafka的sink和source两大组件
·增加了一个新的channel——kafka channel
·增加了hive的sink组件,需要hive streaming的支持
·端到端的认证
·简单的正则搜索和替换的拦截器
开始体验吧!...
分类:
Web程序 时间:
2015-06-16 19:18:23
阅读次数:
190
Kafka为broker,producer和consumer提供了很多的配置参数。 了解并理解这些配置参数对于我们使用kafka是非常重要的。本文列出了一些重要的配置参数。官方的文档Configuration比较老了,很多参数有所变动, 有些名字也有所改变。我在整理的过程中根据0.8.2的代码也做了...
分类:
其他好文 时间:
2015-06-13 20:09:26
阅读次数:
113
apache kafka区QQ群:1622725571.依赖包 org.apache.kafka kafka_2.10 0.8.1 2.producer程序开发样例2.1 producer參数说明#指定kafka节点列表。用于获取metadata,不必所有...
分类:
编程语言 时间:
2015-06-13 11:13:23
阅读次数:
171
本文着重介绍几个常用的topic命令行命令,包括listTopic,createTopic,deleteTopic和describeTopic等。由于alterTopic并不是很常用,本文中就不涉及了。另外本文的代码分析是基于kafka_2.10-0.8.2.1的(虽然截图是Kafka 0.8.1的...
分类:
其他好文 时间:
2015-06-12 13:15:56
阅读次数:
121
回答几个网友提出的问题,不清楚的可以看上一篇内容。
1、
kafka的删除策略应该怎么配置?为了提升性能,我是不是应该1小时删除一次消费过的数据。
完全可以根据磁盘大小配置,只要磁盘足够用,完全没必要删除的那么着急。Kafka的吞吐量不会因为数据量的增长而降低。因为读写数据时,kafka完全是顺序的,只记录offset,时间复杂度是O(1),我曾经测试过上T的数据,完全不受影响。反倒是数...
分类:
其他好文 时间:
2015-06-12 10:11:11
阅读次数:
112
admin包定义了命令行的一些实现一、AdminOperationException.scala一个异常类,表示执行admin命令时候抛出的异常二、AdminUtils.scalaadmin一些常用工具方法:1. assignReplicasToBrokers:负责分配副本到不同的broker上。主...
分类:
其他好文 时间:
2015-06-11 16:20:59
阅读次数:
123
来自:http://blog.csdn.net/beitiandijun/article/details/40582541来源:http://kafka.apache.org/documentation.html#configuration3. ConfigurationKafka在配置文件中使.....
分类:
其他好文 时间:
2015-06-10 20:44:09
阅读次数:
192