本文介绍了一种简单易行的使用rsyslog向kafka,elasticsearch推送日志的方法;rsyslog的omkafka插件的安装、使用方法;rsyslog的omelasticsearch插件的安装、使用方法。...
分类:
其他好文 时间:
2015-03-20 18:41:44
阅读次数:
374
SimplifiedParallelism:NoneedtocreatemultipleinputKafkastreamsandunion-ingthem.WithdirectStream,SparkStreamingwillcreateasmanyRDDpartitionsasthereisKafkapartitionstoconsume,whichwillallreaddatafromKafkainparallel.Sothereisone-to-onemappingbetweenKafkaandRDDp..
分类:
其他好文 时间:
2015-03-18 18:29:45
阅读次数:
630
代码如下: package com.wy.flume.interceptor;
import java.util.List;
import java.util.Map;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import org.apache.commons.lang.StringUtils...
分类:
Web程序 时间:
2015-03-18 07:53:03
阅读次数:
2294
log 这个事, 说大不大说小又不小. 大点的, 可以用scribe flume 这样的系统去做, 小点的, 也就打印一个调试信息而已. 在Erlang 中, log 这事情确实比较伤, error_logger 是个单点, io:format 容易导致节点崩溃. 在开源社区, lager 算是使用...
分类:
其他好文 时间:
2015-03-18 01:01:46
阅读次数:
350
Kafka中Replicas复制备份机制 kafka将每个partition数据复制到多个server上,任何一个partition有一个leader和多个follower(可以没有),备份的个数可以通过broker配置文件来设定(replication-factor的参数配置指定).leader处...
分类:
其他好文 时间:
2015-03-16 22:45:56
阅读次数:
302
Kafka is a distributed, partitioned, replicated commit log service.Terms:Topic: kafka maintains message in categories called topicsProducer: processes...
分类:
其他好文 时间:
2015-03-16 20:59:14
阅读次数:
126
我前面曾经写过:中小企业的大数据技术路线选择 和 低调、奢华、有内涵的敏捷式大数据方案:Flume+Cassandra+Presto+SpagoBI 。前面用两个月的时间验证了Presto JDBC驱动、Prestogres和SHIB三种方案。Prestogres,可以使用PostgreSQL 客户端和JDBC驱动,支持SpagoBI等BI工具。但这种方式架构复杂,可能有性能瓶颈,无法发挥该方案的优势。SHIB现在代码量较小,在Team中有报表开发经验的成员即可上手。如果时间和人力允许,开发一个轻量级的Bi...
分类:
其他好文 时间:
2015-03-16 14:33:24
阅读次数:
264
1.flume是分布式的日志收集系统,把收集来的数据传送到目的地去。2.flume里面有个核心概念,叫做agent。agent是一个java进程,运行在日志收集节点。3.agent里面包含3个核心组件:source、channel、sink。3.1 source组件是专用于收集日志的,可以处理各种类...
分类:
Web程序 时间:
2015-03-14 18:17:59
阅读次数:
186
使用flume收集数据,将数据传递给kafka和hdfs,kafka上的数据可以使用storm构建实时计算,而hdfs上的数据,经过MR处理之后可以导入hive中进行处理。 环境:hadoop1.2.1,hive 0.13.1,maven 3.2.5,flume 1.4,kafka 0.7.2,ec...
分类:
Web程序 时间:
2015-03-14 18:17:55
阅读次数:
4961
最近做的一个项目需要跟Kafka打交道,学习了很多相关知识,就到这里来汇总一下。kafka是一个传递消息的系统,原本是用来快速记录海量log的,现在也经常用作消息队列。它主要由三个部分组成,producer,broker以及consumer。producer发布消息,broker存储消息,consu...
分类:
其他好文 时间:
2015-03-14 06:05:48
阅读次数:
147