首先从flume官网去下载源码
http://flume.apache.org/download.html
下载完之后,解压,首先去除源码中hdfs和hadoop的test依赖
apache-flume-1.5.2-src\flume-ng-sinks\flume-hdfs-sink\pom.xml
 
          org.apache.hbase...
                            
                            
                                分类:
Web程序   时间:
2015-01-20 18:05:28   
                                阅读次数:
210
                             
                    
                        
                            
                            
                                典型大数据计算模式与系统 
典型大数据计算模式
典型系统
大数据查询分析计算
HBase,Hive,Cassandra,Impala,Shark,Hana等
批处理计算
Hadoop MapReduce,Spark等
流式计算
Scribe,Flume,Storm,S4, Spark S...
                            
                            
                                分类:
其他好文   时间:
2015-01-13 21:33:30   
                                阅读次数:
382
                             
                    
                        
                            
                            
                                Channels are the repositories where the events are staged on a agent. Source adds the events and Sink removes it.
通道就是事件暂存的地方,source负责往通道中添加event,sink负责从通道中移出event
flume1.5.2内置的通道有:内存,文件,jdbc
1、内...
                            
                            
                                分类:
Web程序   时间:
2015-01-13 16:02:38   
                                阅读次数:
734
                             
                    
                        
                            
                            
                                多路复用技术意在可以将一个event根据配置信息发送特定的channel上。
A source instance can specify multiple channels, but a sink instance can only specify one channel.
Flume supports fanning out the flow from one source
 to m...
                            
                            
                                分类:
Web程序   时间:
2015-01-13 10:29:07   
                                阅读次数:
1361
                             
                    
                        
                            
                            
                                基于上一篇文章http://blog.csdn.net/simonchi/article/details/42520193  相对比较细致的分析后,该文章将对LoadBalancingSinkProcessor源码进行选择性的重要逻辑代码进行讲解
首先读取配置,当然是重写congifure方法
public void configure(Context context) {
    Preco...
                            
                            
                                分类:
数据库   时间:
2015-01-12 17:36:36   
                                阅读次数:
239
                             
                    
                        
                            
                            
                                大数据实践:ODI和Twitter(二) 在前面的文章中,我们已经使用flume将数据从twitter抓取到Hive中,现在我们来看看ODI(Oracle Data Integrator)如何在HIVE表中进行逆向工程,打开HIVE模型,然后在逆向工程中选择“新的数据存储”及待逆向的对象,如下: ....
                            
                            
                                分类:
其他好文   时间:
2015-01-12 00:08:37   
                                阅读次数:
249
                             
                    
                        
                            
                            
                                FailoverSinkProcessor顾名思义是flume中sink输出容错的处理器
继承自AbstractSinkProcessor
先看下整体源码
/**
 * Licensed to the Apache Software Foundation (ASF) under one
 * or more contributor license agreements.  See the N...
                            
                            
                                分类:
Web程序   时间:
2015-01-08 11:24:31   
                                阅读次数:
234
                             
                    
                        
                            
                            
                                flume的负载均衡即每次按照一定的算法选择sink输出到指定地方,如果在文件输出量很大的情况下,负载均衡还是很有必要的,通过多个通道输出缓解输出压力
flume内置的负载均衡的算法默认是round robin,轮询算法,按序选择
下面看一下具体实例:
 
# Name the components on this agent
a1.sources = r1
a1.sinks = k1 k2...
                            
                            
                                分类:
Web程序   时间:
2015-01-07 18:57:13   
                                阅读次数:
236
                             
                    
                        
                            
                            
                                关于failover网上也有很多例子,但是看到的有多重做法,个人觉得,本着职责单一的原则
1、一台机子运行一个flume agent
2、一个agent 的下游sink指向一个flume agent,不要一个flume agent配置多个端口【影响性能】
下面看具体实例:
首先是flumet agent client的配置
priority越高,优先级越高,会优先使用该sink...
                            
                            
                                分类:
Web程序   时间:
2015-01-07 16:53:24   
                                阅读次数:
220
                             
                    
                        
                            
                            
                                如图所示,新建一个JAVA工程,编辑pom文件,pom文件内容如下【这里取出了parent】:
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http:/...
                            
                            
                                分类:
移动开发   时间:
2015-01-07 13:13:02   
                                阅读次数:
759