hadoop-Archives har归档历史文件（小文件）

时间：2015-12-06 21:02:42 阅读：315 评论：0 收藏：0 [点我收藏+]

标签：

应用场景

我们的hdfs中保存大量小文件（当然不产生小文件是最佳实践），这样会把namenode的namespace搞的很大。namespace保存着hdfs文件的inode信息，文件越多需要的namenode内存越大，但内存毕竟是有限的（这个是目前hadoop的硬伤）。

下面图片展示了，har文档的结构。har文件是通过mapreduce生成的，job结束后源文件不会删除。

技术分享

har命令说明

1、archive命令

(1).什么是Hadoop archives?
Hadoop archives是特殊的档案格式。一个Hadoop archive对应一个文件系统目录。 Hadoop archive的扩展名是*.har。Hadoop archive包含元数据(形式是_index和_masterindx)和数据文件(part-*)。_index文件包含了档案中的文件的文件名和位置信息。

(2).如何创建archive?
用法：hadoop archive -archiveName NAME <src>* <dest>
命令选项：
-archiveName NAME 要创建的档案的名字。
src 源文件系统的路径名。
dest 保存档案文件的目标目录。
范例：
例1.将/user/hadoop/dir1和/user/hadoop/dir2归档到/user/zoo/文件系统目录下–/user/zoo/foo.har。
hadoop@ubuntu:~/ hadoop archive -archiveName foo.har /user/hadoop/dir1 /user/hadoop/dir2 /user/zoo/
当创建archive时，源文件foo.har不会被更改或删除。

(3).如何查看archives中的文件?
archive作为文件系统层暴露给外界。所以所有的fs shell命令都能在archive上运行，但是要使用不同的URI。另外，archive是不可改变的。所以创建、重命名和删除都会返回错误。Hadoop Archives的URI是har://scheme-hostname:port/archivepath/fileinarchive。
如果没提供scheme-hostname，它会使用默认的文件系统。这种情况下URI是这种形式har:///archivepath/fileinarchive。
范例：
例1.archive的输入是/dir，该dir目录包含文件filea和fileb，现把/dir归档到/user/hadoop/foo.bar。
hadoop@ubuntu:~/ hadoop archive -archiveName foo.har /dir /user/hadoop
例2.获得创建的archive中的文件列表
hadoop@ubuntu:~/hadoop dfs -lsr har:///user/hadoop/foo.har
例3.查看archive中的filea文件
hadoop@ubuntu:~/hadoop dfs -cat har:///user/hadoop/foo.har/dir/filea

生成HAR文件

单个src文件夹：

hadoop archive -archiveName 419.har -p /fc/src/20120116/ 419 /user/heipark

多个src文件夹

hadoop archive -archiveName combine.har -p /fc/src/20120116/ 419 512 334 /user/heipark

不指定src path，直接归档parent path（本例为“ /fc/src/20120116/ ”， “ /user/heipark ”仍然为输出path），这招是从源码里翻出来的，嘿嘿。

hadoop archive -archiveName combine.har -p /fc/src/20120116/ /user/heipark

使用模式匹配的src path，下面的示例归档10、11、12月文件夹的数据。这招也是从源码发出来的。

hadoop archive -archiveName combine.har -p /fc/src/2011 1[0-2] /user/heipark

查看HAR文件

hadoop fs -ls har:////user/heipark/20120108_15.har/
#输出如下：
drw-r--r-- - hdfs hadoop 0 2012-01-17 16:30 /user/heipark/20120108_15.har/2025
drw-r--r-- - hdfs hadoop 0 2012-01-17 16:30 /user/heipark/20120108_15.har/2029

#使用hdfs文件系统查看har文件
hadoop fs -ls /user/yue.zhang/20120108_15.har/
#输出如下：
-rw-r--r-- 2 hdfs hadoop 0 2012-01-17 16:30 /user/heipark/20120108_15.har/_SUCCESS
-rw-r--r-- 5 hdfs hadoop 2411 2012-01-17 16:30 /user/heipark/20120108_15.har/_index
-rw-r--r-- 5 hdfs hadoop 24 2012-01-17 16:30 /user/heipark/20120108_15.har/_masterindex
-rw-r--r-- 2 hdfs hadoop 191963 2012-01-17 16:30 /user/heipark/20120108_15.har/part-0

Har Java API (HarFileSystem )

public static void main(String[] args) throws Exception {
	Configuration conf = new Configuration();
	conf.set("fs.default.name", "hdfs://xxx.xxx.xxx.xxx:9000");
		
	HarFileSystem fs = new HarFileSystem();
	fs.initialize(new URI("har:///user/heipark/20120108_15.har"), conf);
	FileStatus[] listStatus = fs.listStatus(new Path("sub_dir"));
	for (FileStatus fileStatus : listStatus) {
		System.out.println(fileStatus.getPath().toString());
	}
}

hadoop-Archives har归档历史文件（小文件）

标签：

原文地址：http://www.cnblogs.com/thinkpad/p/5024174.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行