flume写hdfs的操作在HDFSEventSink.process方法中,路径创建由BucketPath完成分析其源码(参考:http://caiguangguang.blog.51cto.com/1652935/1619539)可以使用%{}变量替换的形式实现,只需要获取event中时间字段(nginx日志的localtime)传入hdfs.path即可具体实现如下:1...
分类:
Web程序 时间:
2015-04-19 19:37:36
阅读次数:
156
flume打包遇到的一些问题1.ipc兼容性问题,线上使用2.3.0的hdfs,但是打包时默认为1.2.1的08Apr201519:38:25,122WARN[SinkRunner-PollingRunner-DefaultSinkProcessor](org.apache.flume.sink.hdfs.HDFSEventSink.process:455)-HDFSIOerror
org.apache.hadoop.ipc.RemoteExcept..
分类:
Web程序 时间:
2015-04-19 19:36:26
阅读次数:
256
Kafka日志包是提供的是日志管理系统。主要的类是LogManager——该类负责处理所有的日志,并根据topic/partition分发日志。它还负责flush策略以及日志保存策略。Kafka日志本身是由多个日志段组成(log segment)。一个日志是一个FileMessageSet,它包含了...
分类:
其他好文 时间:
2015-04-19 10:06:28
阅读次数:
2628
消息格式消息由一个固定长度的头部和可变长度的字节数组组成。头部包含了一个版本号和CRC32校验码。[plain]view plaincopy/***具有N个字节的消息的格式如下**如果版本号是0**1.1个字节的"magic"标记**2.4个字节的CRC32校验码**3.N-5个字节的具体信息**如...
分类:
其他好文 时间:
2015-04-18 12:44:58
阅读次数:
123
接下来一步一步搭建Kafka运行环境。Step 1: 下载Kafka点击下载最新的版本并解压.> tar -xzf kafka_2.9.2-0.8.1.1.tgz> cd kafka_2.9.2-0.8.1.1Step 2: 启动服务Kafka用到了Zookeeper,所有首先启动Zookper,下...
分类:
其他好文 时间:
2015-04-18 11:33:26
阅读次数:
153
上篇文章中我们搭建了kafka的服务器,并可以使用Kafka的命令行工具创建topic,发送和接收消息。下面我们来搭建kafka的开发环境。添加依赖搭建开发环境需要引入kafka的jar包,一种方式是将Kafka安装包中lib下的jar包加入到项目的classpath中,这种比较简单了。不过我们使用...
分类:
其他好文 时间:
2015-04-18 11:31:44
阅读次数:
153
Kafka在提高效率方面做了很大努力。Kafka的一个主要使用场景是处理网站活动日志,吞吐量是非常大的,每个页面都会产生好多次写操作。读方面,假设每个消息只被消费一次,读的量的也是很大的,Kafka也尽量使读的操作更轻量化。我们之前讨论了磁盘的性能问题,线性读写的情况下影响磁盘性能问题大约有两个方面...
分类:
其他好文 时间:
2015-04-18 11:31:29
阅读次数:
141
Kafka大量依赖文件系统去存储和缓存消息。对于硬盘有个传统的观念是硬盘总是很慢,这使很多人怀疑基于文件系统的架构能否提供优异的性能。实际上硬盘的快慢完全取决于使用它的方式。设计良好的硬盘架构可以和内存一样快。在6块7200转的SATA RAID-5磁盘阵列的线性写速度差不多是600MB/s,但是随...
分类:
其他好文 时间:
2015-04-18 11:30:33
阅读次数:
161
Kafka Producer消息发送producer直接将数据发送到broker的leader(主节点),不需要在多个节点进行分发。为了帮助producer做到这点,所有的Kafka节点都可以及时的告知:哪些节点是活动的,目标topic目标分区的leader在哪。这样producer就可以直接将消息...
分类:
其他好文 时间:
2015-04-18 11:29:11
阅读次数:
135