HDFS sink里有个属性hdfs.rollInterval=86400,这个属性你设置了24小时滚动一次,它的确就到了24小时才滚动,但是我们的需求往往是到了0点就滚动文件了,因为离线的job因为都会放在夜里执行。
如果flume是早上9点启动的,那么要到明天早上9点,hdfs的文件才会关闭,难道job要等到9点后才执行,这显然不合适,所以通过修改源码使其能够在0点滚动文件。
首先...
分类:
Web程序 时间:
2015-04-29 15:12:56
阅读次数:
660
kafka.cluster包定义了Kafka的基本逻辑概念:broker、cluster、partition和replica——这些是最基本的概念。只有弄懂了这些概念,你才真正地使用kakfa来帮助完成你的需求。因为scala文件不多,还是老规矩,我们一个一个分析。一、Broker.scalabro...
分类:
其他好文 时间:
2015-04-29 11:27:15
阅读次数:
168
日志队列配置介绍:http://blog.chinaunix.net/uid-773723-id-3900229.htmlrsyslog2,3安装与配置:http://edwinzhou.blog.hexun.com/20668674_d.html概念: Rsyslog 是一个 syslogd 的....
分类:
其他好文 时间:
2015-04-29 11:26:21
阅读次数:
172
因为看见许多朋友也都遇到过我这种情况,所以拿出来供大家参考下,我用的loganalyzer版本是Installedversion:3.6.5这里先贴下效果图:添加ip字段1.php文件添加字段vim./include/constants_logstream.php+354修改这个PHP文件2.视图添加字段3.数据库添加字段修改/etc/rsyslog.con..
分类:
数据库 时间:
2015-04-28 18:54:59
阅读次数:
552
简介
ELK 套装包括 ElasticSearch、LogStash 和 Kibana。 其中,ElasticSearch 是一个数据搜索引擎(基于 Apache Lucene)+分布式 NoSQL 数据库;LogStash 是一个消息采集转换器,类似 Syslog,可以接收包括日志消息在内的多种数据格式,然后进行格式转换,发送给后端继续处理;Kibana 是一个 Web 前段,带有强大...
分类:
其他好文 时间:
2015-04-28 11:51:18
阅读次数:
511
前言作为一名运维工程师,查看分析系统日志是每天必做的功课,但每次查看日志都得一台服务器一台服务器的看,几台服务器还可以这么对付,但如果管理成百上千台线上服务器,这种方法就捉襟见肘了。于是我们就需要用到日志服务器了,但是如何能让它更直观的显示呢?loganalyzer是..
分类:
其他好文 时间:
2015-04-28 00:08:13
阅读次数:
557
Hadoop大数据零基础实战培训教程一,教程内容:1,Hadoop2.0YARN深入浅出系列2,Avro数据序列化系统3,Chukwa集群监控系统4,Flume日志收集系统5,Greenplum架构6,Hadoop的起源7,Hadoop商业应用案例8,HBase案例分析9,HBase编程实践10,M...
分类:
其他好文 时间:
2015-04-26 12:05:41
阅读次数:
209
但对于很多中小企业来说,本身的设备也不是太多,也就几台到几十台而已,如果花费太多的精力去搞安全也不划算,如果不搞又感觉不放心。那什么方面的内容是中小企业关注的呢?个人认为应该优先关注访问安全,就是有没有人非法访问你的服务器,因为在云平台下,任何人只要接入网络都可以访问到你的机器。所以我认为应该优先关注此信息,报告非上班时间访问,非上班地点访问,密码猜测,账号猜测,账号猜测成功等行为。从我了解的情况下,这部分目前还没有比较有效的开源或者免费工具供大家使用,现在elk用的比较多,但大多数情况下都不太适合中小公司...
分类:
其他好文 时间:
2015-04-26 09:16:32
阅读次数:
133
结构:nginx-flume->kafka->flume->kafka(因为牵扯到跨机房问题,在两个kafka之间加了个flume,蛋疼。。)现象:在第二层,写入kafka的topic和读取的kafka的topic相同,手动设定的sinktopic不生效打开debug日志:source实例化:21Apr201519:24:03,146INFO[conf-file-poll..
分类:
Web程序 时间:
2015-04-26 01:47:52
阅读次数:
765
kafka设计原理介绍背景介绍Kafka简介 Kafka是一种分布式的,基于发布/订阅的消息系统。主要设计目标如下:以时间复杂度为O(1)的方式提供消息持久化能力,即使对TB级以上数据也能保证常数时间的访问性能高吞吐率。即使在非常廉价的商用机器上也能做到单机支持每秒100K条消息的传输支持Kafk....
分类:
其他好文 时间:
2015-04-25 22:44:13
阅读次数:
320