在这里看到的解决方法https://issues.apache.org/jira/browse/SPARK-1729请是个人理解,有问题请大家留言。其实本身flume是不支持像KAFKA一样的发布/订阅功能的,也就是说无法让spark去flume拉取数据,所以老外就想了个取巧的办法。在flume中其...
分类:
Web程序 时间:
2015-05-13 16:04:15
阅读次数:
266
有两种方式,一种是sparkstreaming中的driver起监听,flume来推数据;另一种是sparkstreaming按照时间策略轮训的向flume拉数据。最开始我以为只有第一种方法,但是尼玛问题在于driver起来的结点是没谱的,所以每次我重启streaming后发现尼玛每次都要修改flu...
分类:
Web程序 时间:
2015-05-13 12:23:56
阅读次数:
207
本文介绍初次使用Flume传输数据到MongoDB的过程,内容涉及环境部署和注意事项。1 环境搭建 需要jdk、flume-ng、mongodbjavadriver、flume-ng-mongodb-sink(1)jdk下载地址:http://www.oracle.com/technetwor...
分类:
Web程序 时间:
2015-05-13 00:25:34
阅读次数:
185
日志记录了系统运行中的相关信息,分析日志对我们的系统排错、调优等至关重要,所以本文试浅析rsyslogserver和loganalyzer的图形化展示日志。rsyslog概述对Linux而言,应用程序和内核都有可能需要记录日志syslogd:为应用程序记录日志klogd:为内核记录日志上述两个守护进程由..
分类:
其他好文 时间:
2015-05-12 19:01:40
阅读次数:
124
从以上截图信息,就可以看出问题了,服务端和客户端连接信息对不上,服务端有很多ESTABLISHED的连接,其实是无用的。这种情况,起初,我也很奇怪,没有发现原因,只能查看日志了。
通过日志信息,发现出现了异常,但是很奇怪,在异常信息之前,有一句Rpc sink {} closing Rpc client: {}
这里destroyConnection了,摧毁了一...
分类:
Web程序 时间:
2015-05-12 13:43:45
阅读次数:
209
一、FLUME介绍Flume是一个分布式、可靠、和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。设计目标:(1) 可靠性当节点出现故障时,日志能够被传送到其他节点上而不会丢失。Flume提供了三...
分类:
Web程序 时间:
2015-05-11 17:46:59
阅读次数:
213
原文:http://calvin1978.blogcn.com/articles/kafkaio.html关于文件IO和cache, 让我们对page cache不再陌生.0. Overview卡夫卡说:不要害怕文件系统。它就那么简简单单地用顺序写的普通文件,借力于Linux内核的Page Cach...
分类:
Web程序 时间:
2015-05-11 10:26:15
阅读次数:
168
1、 概述Kafka是Linkedin于2010年12月份开源的消息系统,它主要用于处理活跃的流式数 据。活跃的流式数据在web网站应用中非常常见,这 些数据包括网站的pv、用户访问了什么内容,搜索了什么内容等。 这些数据通常以日志的形式记录下来,然后每隔一段时间进行一次统计处理。传统的日志分析系统...
分类:
其他好文 时间:
2015-05-10 20:14:37
阅读次数:
159
友情提醒:本文系统环境vmware10+Centos6.6x86_64,以下涉及到的命令和用法请谨慎使用。内容概括:(1)rsyslog的配置文件与日志内容结构解读(2)使用rsyslog做一台日志服务器(3)rsyslog日志文件的轮替(4)rsyslog与mariadb结合将日志信息写入数据库并使用loganalyzer进行管理日志对..
分类:
其他好文 时间:
2015-05-09 20:32:41
阅读次数:
319
在上家公司工作时,设计的日志收集与实时分析架构,还是比较简单的:flume-ng+rocketmq+storm+redis+前端展示消息队列部分,我们刚开始采用的是kafka,但kafka在支持回溯消费和重复消费方面比较弱,同时在数据安全方面也相对弱一些,后来我们改为阿里的rocketmq。考虑到我们的数..
分类:
其他好文 时间:
2015-05-09 20:31:03
阅读次数:
1639