一、hadop的项目Common:一系列组件和接品口,用于分布式文件系统和通用I/O(序列化,JavaRPC和持久化数据结构)Avro:一种序列化系统,用于支技高效,跨语言的RPC和持久化的数据存储MapRedue:分布式数据处理模型和执行环境,运行于大型商用机集群HDFS:分布式文件系统,运行..
分类:
其他好文 时间:
2015-11-07 19:08:48
阅读次数:
220
AvroSource简介:监听Avro端口并从外部的Avro客户端接收事件流,多个flumeagent可以通过Avro形成一个组织。PropertyName Default Descriptionchannels – type – 需要配置为Avrobind – 需要监听的主机名或ip地址port – 监听的端口threads – 工作的最大线程数selector.type..
分类:
Web程序 时间:
2015-10-28 01:47:31
阅读次数:
239
序列化:把结构化的对象转换成字节流,使得能够在系统中或网络中通信需要把数据存储到hadoop的hbase常用序列化系统thrift(hive,hbase)ProtocolBuffer(google)avro
分类:
其他好文 时间:
2015-10-11 19:54:18
阅读次数:
172
由于最近在整理公司的培训事情,首先培训的就是Avro,故这里做一个记录 一、介绍,直接看官网来得快 官方网站:http://avro.apache.org/ 1.1、Maven项目构建pom示例 所需要的jar包 ?<!--?测试类?-->
?????...
分类:
其他好文 时间:
2015-09-22 16:50:12
阅读次数:
245
Avro简介
schema
文件组成
声明代码
测试代码
序列化与反序列化
specific
generic
参考文献Avro简介Avro是由Doug Cutting(Hadoop之父)创建的数据序列化系统,旨在解决Writeable类型的不足:缺乏语言的可移植性。为了支持跨语言,Avro的schema与语言的模式无关。有关Avro的更多特性请参看官方文档 1。Avro文件的读写是依据schema而...
分类:
其他好文 时间:
2015-08-31 10:13:05
阅读次数:
199
Avro 提供了1.x版本的AvroMultipleInputs,但是不支持2.x API版本,因此修改对应代码,增加对hadoop 2.x API版本的的支持代码放在https://github.com/jadepeng/AvroMultipleInputs/使用方法和MultipleInputs...
分类:
其他好文 时间:
2015-08-27 20:59:09
阅读次数:
259
avro生成的代码里,String是CharSequence,不能通过Gson反序列化,于是有了下面的代码,ParseArray里还不完善: 1 static List parseArray(JSONArray arrary,Class cls) throws IllegalAccessExcep....
分类:
编程语言 时间:
2015-08-18 13:45:54
阅读次数:
116
研究spark的目的之一就是要取代MR,目前我司MR的一个典型应用场景即为生成Avro文件,然后加载到HIVE表里,所以如何在Spark中生成Avro文件,就是必然之路了。我本人由于对java不熟,对hadoop的各个框架也知之寥寥,所以耗费了五六天的时间才搞明白怎么在spark中生成avro文件。...
分类:
其他好文 时间:
2015-08-11 16:02:42
阅读次数:
454