使用Docker容器模拟分布式flume使用Docker模拟分布式flume,agent1通过avro接口连接agent2和agent3,agent2和agent3采用负荷分担方式。使用docker-hub上的cogniteev/flume作为原始镜像...
分类:
其他好文 时间:
2016-05-12 18:15:40
阅读次数:
182
Flume Source
Source类型
说明
Avro Source
支持Avro协议(实际上是Avro RPC),内置支持
Thrift Source
支持Thrift协议,内置支持
Exec Source
基于Unix的command在标准输出上生产数据
JMS Source
从JMS系...
分类:
Web程序 时间:
2016-05-12 18:15:00
阅读次数:
174
1、DataFrame
一个以命名列组织的分布式数据集。概念上相当于关系数据库中一张表或在R / Python中的data frame数据结构,但DataFrame有丰富的优化。在spark 1.3之前,核心的新类型为RDD-schemaRDD,现改为DataFrame。spark 通过DataFrame操作大量的数据源,包括外部文件(如 json、avro、parquet、sequ...
分类:
数据库 时间:
2016-05-12 12:50:07
阅读次数:
476
# Flume test file# Listens via Avro RPC on port 41414 and dumps data received to the logagent.channels = ch-1agent.sources = src-1agent.sinks = sink-1 ...
分类:
Web程序 时间:
2016-05-05 19:24:54
阅读次数:
854
实例1 :类型avro,在flume的conf里面创建一个avro.conf用来测试,如下:
a1.sources = r1
a1.sinks = k1
a1.channels = c1# Describe/configure the source
a1.sources.r1.type = avro
a1.sources.r1.channels = c1
a1.sources.r1.bi...
分类:
移动开发 时间:
2016-05-03 18:21:47
阅读次数:
287
Hadoop2.x.x版本的底层实现中作了很多优化:用状态机对各种对象生命周期和状态转移进行管理;采用事件机制避免线程同步与阻塞;采用Protocol Buffers优化RPC性能;采用Apache Avro优化日志等。本文主要针对YARN中状态机的实现进行分析,在这个过程中,会捎带一些事件的内容。...
分类:
其他好文 时间:
2016-04-29 10:36:12
阅读次数:
241
主要介绍Hadoop家族产品,常用的项目包括Hadoop,Hive,Pig,HBase,Sqoop,Mahout,Zookeeper,Avro,Ambari,Chukwa,新增加的项目包括,YARN,Hcatalog,Oozie,Cassandra,Hama,Whirr,Flume,Bigtop,Crunch,Hue等。从2011年开始,中国进入大数据风起云涌的时代,以Hadoop为代表的家族软件..
分类:
其他好文 时间:
2016-04-19 20:20:22
阅读次数:
335
1. Hadoop 最出名的是 MapReduce和 HDFS,不过也有很多其他有用的子项目。 技术栈如下: Core 一系列分布式文件系统和通用I/O的组件和接口(序列化、Java RPC和持久化数据结构) Avro 一种提供高效、跨语言RPC的数据序列系统,持久化数据存储。 MapReduce ...
分类:
其他好文 时间:
2016-04-19 17:02:12
阅读次数:
134
Common:在2.2.0以前的大多数版本中,包含HDFS、MapReduce和其他项目公共内容,从2.2.0开始HDFS和MapReduce被分离为独立的子项目,其余内容为Hadoop
Common。
Avro:新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制。
MapReduce:并行计算框架,0.20前使用org.apache.hadoop.map...
分类:
其他好文 时间:
2016-03-24 10:22:55
阅读次数:
144