有两种方式,一种是sparkstreaming中的driver起监听,flume来推数据;另一种是sparkstreaming按照时间策略轮训的向flume拉数据。最开始我以为只有第一种方法,但是尼玛问题在于driver起来的结点是没谱的,所以每次我重启streaming后发现尼玛每次都要修改flu...
分类:
Web程序 时间:
2015-05-13 12:23:56
阅读次数:
207
本文介绍初次使用Flume传输数据到MongoDB的过程,内容涉及环境部署和注意事项。1 环境搭建 需要jdk、flume-ng、mongodbjavadriver、flume-ng-mongodb-sink(1)jdk下载地址:http://www.oracle.com/technetwor...
分类:
Web程序 时间:
2015-05-13 00:25:34
阅读次数:
185
从以上截图信息,就可以看出问题了,服务端和客户端连接信息对不上,服务端有很多ESTABLISHED的连接,其实是无用的。这种情况,起初,我也很奇怪,没有发现原因,只能查看日志了。
通过日志信息,发现出现了异常,但是很奇怪,在异常信息之前,有一句Rpc sink {} closing Rpc client: {}
这里destroyConnection了,摧毁了一...
分类:
Web程序 时间:
2015-05-12 13:43:45
阅读次数:
209
一、FLUME介绍Flume是一个分布式、可靠、和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。设计目标:(1) 可靠性当节点出现故障时,日志能够被传送到其他节点上而不会丢失。Flume提供了三...
分类:
Web程序 时间:
2015-05-11 17:46:59
阅读次数:
213
原文:http://calvin1978.blogcn.com/articles/kafkaio.html关于文件IO和cache, 让我们对page cache不再陌生.0. Overview卡夫卡说:不要害怕文件系统。它就那么简简单单地用顺序写的普通文件,借力于Linux内核的Page Cach...
分类:
Web程序 时间:
2015-05-11 10:26:15
阅读次数:
168
1、 概述Kafka是Linkedin于2010年12月份开源的消息系统,它主要用于处理活跃的流式数 据。活跃的流式数据在web网站应用中非常常见,这 些数据包括网站的pv、用户访问了什么内容,搜索了什么内容等。 这些数据通常以日志的形式记录下来,然后每隔一段时间进行一次统计处理。传统的日志分析系统...
分类:
其他好文 时间:
2015-05-10 20:14:37
阅读次数:
159
在上家公司工作时,设计的日志收集与实时分析架构,还是比较简单的:flume-ng+rocketmq+storm+redis+前端展示消息队列部分,我们刚开始采用的是kafka,但kafka在支持回溯消费和重复消费方面比较弱,同时在数据安全方面也相对弱一些,后来我们改为阿里的rocketmq。考虑到我们的数..
分类:
其他好文 时间:
2015-05-09 20:31:03
阅读次数:
1639
# example.conf: A single-node Flume configuration# Name the components on this agenta1.sources = r1a1.sinks = k1a1.channels = c1# Describe/configure t...
分类:
Web程序 时间:
2015-05-07 21:55:30
阅读次数:
140
常用的分布式日志收集系统:Apache Flume、Facebook Scribe、Apache Chukwa1、Flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG(original generation)...
分类:
Web程序 时间:
2015-05-07 16:30:07
阅读次数:
248
Storm0.9.4安装 - OPEN 开发经验库bin/zkServer.sh start /home/guym/down/kafka_2.8.0-0.8.0/config/zookeeper.properties&bin/kafka-server-start.sh config/server.p...
分类:
其他好文 时间:
2015-05-06 20:57:48
阅读次数:
204