linux操作系统最小粒度的定时调度器只能调到分钟的级别,工作中有时需在到秒的调度,所以需要自己编写脚本来实现
#!/bin/bash
while [ true ]; do
/bin/sleep 1
##在这里可以编写自己复杂的业务代码netstat -n | grep 8020 >> /root/data/flume.log
echo 10.58...###`date` >> /root/...
分类:
系统相关 时间:
2014-10-10 13:26:14
阅读次数:
196
部署ELK时候,logstash启动报错Sending logstash logs to /var/log/logstash.log.Exception in thread ">output" org.elasticsearch.discovery.MasterNotDiscoveredExcept...
分类:
其他好文 时间:
2014-10-10 11:35:24
阅读次数:
397
Flume-NG中的hdfs sink的路径名(对应参数"hdfs.path",不允许为空)以及文件前缀(对应参数"hdfs.filePrefix")支持正则解析时间戳自动按时间创建目录及文件前缀。 在实际使用中发现Flume内置的基于正则的解析方式非常耗时,有非常大的提升空间。如果你不需要配...
分类:
其他好文 时间:
2014-10-10 09:52:34
阅读次数:
2135
这里只考虑flume本身的一些东西,对于JVM、HDFS、HBase等得暂不涉及。。。。一、关于Source: 1、spool-source:适合静态文件,即文件本身不是动态变化的; 2、avro source可以适当提高线程数量来提高此source性能; 3、ThriftSource在使用时...
分类:
其他好文 时间:
2014-10-09 19:29:07
阅读次数:
292
elasticsearch kibana3安装...
分类:
其他好文 时间:
2014-10-09 17:29:58
阅读次数:
221
Flume配置
。
flume生成的数据结构
"_index" : "logstash-2013.01.07",
"_type" : "tms_jboss_syslog",
"_id" : "a_M9X_0YSpmE7A_bEzIFiw",
"_score" : 1.0, "_source" : {"@source":"file://localhost.localdomain/tmp...
分类:
其他好文 时间:
2014-10-09 17:03:48
阅读次数:
290
1.前言首先,描述下应用场景:假设,公司有一款游戏,需要做行为统计分析,数据的源头来自日志,由于用户行为非常多,导致日志量非常大。将日志数据插入数据库然后再进行分析,已经满足不了。最好的办法是存日志,然后通过对日志的分析,计算出有用的数据。我们采用kafka这种分..
分类:
其他好文 时间:
2014-10-08 02:00:35
阅读次数:
562
Flume数据传输事务分析
本文基于ThriftSource,MemoryChannel,HdfsSink三个组件,对Flume数据传输的事务进行分析,如果使用的是其他组件,Flume事务具体的处理方式将会不同。一般情况下,用MemoryChannel就好了,我们公司用的就是这个,FileChannel速度慢,虽然提供日志级别的数据恢复,但是一般情况下,不断电MemoryChannel是不会...
分类:
其他好文 时间:
2014-09-30 17:11:59
阅读次数:
187
kafka概念:
kafka是一个高吞吐量的流式分布式消息系统,用来处理活动流数据,比如网页的访问量pm,日志等,既能够实时处理大数据信息
也能离线处理。
特点:
1.高吞吐量
2.是一种显式的分布式系统,它假设,数据生产者(producer),代理(brokers)和数据使用者(consum...
分类:
其他好文 时间:
2014-09-29 20:09:12
阅读次数:
196