SequenceFile是使用二进制保存数据,是可以压缩的,并且压缩后的数据可被分割,可以供mapreduce处理。下面的实例使用SequenceFile保存Hive表的数据,并且使用了压缩。set hive.exec.compress.output=true; #压缩mapreduce输出数据se...
分类:
其他好文 时间:
2015-06-08 14:54:05
阅读次数:
104
基于文件的数据结构
两种文件格式:
1、SequenceFile
2、MapFileSequenceFile1、SequenceFile文件是Hadoop用来存储二进制形式的对而设计的一种平面文件(Flat File)。2、可以把SequenceFile当做一个容器,把所有文件打包到SequenceFile类中可以高效的对小文件进行存储和处理。3、SequenceFile...
分类:
其他好文 时间:
2015-06-07 18:59:22
阅读次数:
186
1) InputFormatClass
com.cloudera.sqoop.mapreduce.db.DataDrivenDBInputFormat
2) OutputFormatClass1)TextFile
com.cloudera.sqoop.mapreduce.RawKeyTextOutputFormat
2)SequenceFile
org.apache.hado...
分类:
其他好文 时间:
2015-05-21 17:32:22
阅读次数:
386
(1)以怎样的方式从分片中读取一条记录,每读取一条记录都会调用RecordReader类;(2)系统默认的RecordReader是LineRecordReader,如TextInputFormat;而SequenceFileInputFormat的RecordReader是SequenceFile...
分类:
其他好文 时间:
2015-04-28 18:17:45
阅读次数:
148
对于文本信息的向量化,Mahout 已经提供了工具类,它基于 Lucene 给出了对文本信息进行分析,然后创建文本向量。mahout提供下面两个命令来将文本转成向量形式(转化成向量后可以聚类):1.mahout seqdirectory:将文本文件转成SequenceFile文件,SequenceF...
分类:
其他好文 时间:
2015-04-26 21:00:05
阅读次数:
154
SequenceFile可以处理hdfs上大量小文件,它可以作为大量小文件的容器。HDFS和MapReduce是针对大文件优化的,所以通过SequenceFile类型将小文件包装起来可以获得更高效的存储和处理。存储在SequenceFile中的键和值并不一定是Writable类型,只要能被Seri....
分类:
其他好文 时间:
2015-04-25 17:59:21
阅读次数:
163
MapFile是已经排过序的SequenceFile,它有索引,所以可以按键查找1.MapFile的写操作MapFile的写操作类似于SequenceFile的写操作。新建一个MapFile.Writer实例,然后调用append()方法顺序写入文件内容。如果不按顺序写入,就抛出一个IOExcept...
分类:
其他好文 时间:
2015-03-10 21:23:04
阅读次数:
123
纯文本不适合记录二进制类型的数据,在这种情况看下,Hadoop的SequenceFile类非常合适,为二进制键值对提供了一种持久的数据结构1.SequenceFile的写操作通过createWriter()静态方法可以创建SequenceFile对象,并返回SequenceFile.Writer实例...
分类:
其他好文 时间:
2015-03-10 19:06:31
阅读次数:
144
Hive文件格式
1、 TextFile
默认文件格式
数据不做压缩,磁盘开销大,数据解析开销大,可以结合Gzip、Bzip2使用(系统自动检测,执行查询时自动解压)
数据不会被Hive切分,所以无法对数据进行并行操作
创建命令:
2、 SequenceFile
是Hadoop API提供的一种二进制文件支持
使用方便、可分割、可压缩的特点
支持三种压缩方式...
分类:
其他好文 时间:
2015-01-24 15:53:06
阅读次数:
183
概念
SequenceFile是一个由二进制序列化过的key/value的字节流组成的文本存储文件,它可以在map/reduce过程中的input/output
的format时被使用。在map/reduce过程中,map处理文件的临时输出就是使用SequenceFile处理过的。 所以一般的SequenceFile均是在FileSystem中生成,供map调用的原始文件。
...
分类:
其他好文 时间:
2014-12-10 22:48:16
阅读次数:
280