Hive压缩之二 小文件合并
调研背景
当Hive输入由很多个小文件组成,由于每个小文件都会启动一个map任务,如果文件过小,以至于map任务启动和初始化的时间大于逻辑处理的时间,会造成资源浪费,甚至OOM。为此,当我们启动一个任务,发现输入数据量小但任务数量多时,需要注意在Map前端进行输入合并。当然,在我们向一个表写数据时,也需要注意输出文件大小。
输入合并
合并输入小文...
分类:
其他好文 时间:
2015-01-24 13:11:58
阅读次数:
163
GridFS 是一种将大型文件存储在MongoDB 数据库中的文件规范。所有官方支持的驱动均实现了GridFS 规范。 GridFS是MongoDB中的一个内置功能,可以用于存放大量小文件。 官网学习: http://www.mongodb.org/display/DOCS/GridFS htt.....
分类:
数据库 时间:
2015-01-24 11:20:19
阅读次数:
203
表分区定义一般情况下,我们建立数据库表时,表数据都存放在一个文件里。但是如果是分区表的话,表数据就会按照你指定的规则分放到不同的文件里,把一个大的数据文件拆分为多个小文件,还可以把这些小文件放在不同的磁盘下由多个cpu进行处理。这样文件的大小随着拆分而减小,还得到硬件系统的加强,自然对我们操作数据....
分类:
数据库 时间:
2015-01-22 20:16:14
阅读次数:
316
gst制作成了静态库,而python2的gst有多个动态库引用gst的库因此,想了一个办法将python2所需要的gst打包成一个单独的共享库办法就是,将python2_gst所有的.so先制作成.a通过nm -g加过滤的办法得到所有链接的gst函数将这些函数生成一个小文件,在一个静态函数中引用所有...
分类:
编程语言 时间:
2015-01-20 23:50:30
阅读次数:
354
1. HDFS体系结构 HDFS支持大文件,以流的方式访问数据,数据分布在数据节点(Data Node),文件的元数据保存在名字节点(Name Node)。名字节点的内存大小,决定了HDFS文件系统可保存的文件数量,所以大量小文件会影响名字节点的性能(尽管名字节点内存都较大)。 1.1 数据块Blo...
分类:
其他好文 时间:
2015-01-19 18:52:14
阅读次数:
280
gst制作成了静态库,而python2的gst有多个动态库引用gst的库因此,想了一个办法将python2所需要的gst打包成一个单独的共享库办法就是,将python2_gst所有的.so先制作成.a通过nm -g加过滤的办法得到所有链接的gst函数将这些函数生成一个小文件,在一个静态函数中引用所有...
分类:
编程语言 时间:
2015-01-18 22:33:35
阅读次数:
319
前言接触Hadoop有两年的时间了,期间遇到很多的问题,既有经典的NameNode和JobTracker内存溢出故障,也有HDFS存储小文件问题,既有任务调度问题,也有MapReduce性能问题.遇到的这些问题有些是Hadoop自身的缺陷(短板),有些则是使用的不当。在解决问题的过程中,有时需要翻源...
分类:
其他好文 时间:
2015-01-15 12:17:12
阅读次数:
150
为了应对日益复杂,大规模的JavaScript开发。我们化整为零,化繁为简。将复杂的逻辑划分一个个小单元,各个击破。这时一个项目可能会有几十个甚至上百个JS文件,每个文件为一个模块单元。如果上线时都是这些小文件,那将对性能造成一定影响。RequireJS提供了一个打包压缩工具r.js来对模块进行合并...
分类:
Web程序 时间:
2015-01-14 12:36:45
阅读次数:
134
1.问题分析
用fsck命令统计 查看HDFS上在某一天日志的大小,分块情况以及平均的块大小,即
分析问题的存在性:从表中可以看出,每天日志量的分块情况:总共大概有268左右的块数,平均块大小为36MB左右,远远不足128MB,这潜在的说明了一个问题。日志产生了很多小文件,大多数都不足128M,严重影响集群的扩展性和性能:首先,在HDFS中,任何block,文件或者目录在内存中均以对象的形式存储,每个对象约占150byte,如果有1000 0000个小文件,每个文件占用一个block,则namenode大...
分类:
其他好文 时间:
2015-01-13 21:44:23
阅读次数:
330
一、使用二者时应该注意的事项:1、exp和imp是客户端工具程序,它们既可以在客户端使用,也可以在服务端使用。expdp和impdp是服务端的工具程序,他们只能在oracle服务端使用,不能在客户端使用。expdpimpdp导大文件比exp和imp快,可以并行导,但导小文件很慢。网上有人说:一个..
分类:
数据库 时间:
2015-01-09 19:35:24
阅读次数:
248