码迷,mamicode.com
首页 >  
搜索关键字:小文件    ( 1027个结果
hive压缩之小文件合并
Hive压缩之二 小文件合并   调研背景 当Hive输入由很多个小文件组成,由于每个小文件都会启动一个map任务,如果文件过小,以至于map任务启动和初始化的时间大于逻辑处理的时间,会造成资源浪费,甚至OOM。为此,当我们启动一个任务,发现输入数据量小但任务数量多时,需要注意在Map前端进行输入合并。当然,在我们向一个表写数据时,也需要注意输出文件大小。 输入合并 合并输入小文...
分类:其他好文   时间:2015-01-24 13:11:58    阅读次数:163
MongoDB整理笔记のGridFS
GridFS 是一种将大型文件存储在MongoDB 数据库中的文件规范。所有官方支持的驱动均实现了GridFS 规范。 GridFS是MongoDB中的一个内置功能,可以用于存放大量小文件。 官网学习: http://www.mongodb.org/display/DOCS/GridFS htt.....
分类:数据库   时间:2015-01-24 11:20:19    阅读次数:203
Sqlserver2008 表分区教程
表分区定义一般情况下,我们建立数据库表时,表数据都存放在一个文件里。但是如果是分区表的话,表数据就会按照你指定的规则分放到不同的文件里,把一个大的数据文件拆分为多个小文件,还可以把这些小文件放在不同的磁盘下由多个cpu进行处理。这样文件的大小随着拆分而减小,还得到硬件系统的加强,自然对我们操作数据....
分类:数据库   时间:2015-01-22 20:16:14    阅读次数:316
python2-gst0.10制作静态包的补丁 v1.1
gst制作成了静态库,而python2的gst有多个动态库引用gst的库因此,想了一个办法将python2所需要的gst打包成一个单独的共享库办法就是,将python2_gst所有的.so先制作成.a通过nm -g加过滤的办法得到所有链接的gst函数将这些函数生成一个小文件,在一个静态函数中引用所有...
分类:编程语言   时间:2015-01-20 23:50:30    阅读次数:354
HDFS
1. HDFS体系结构 HDFS支持大文件,以流的方式访问数据,数据分布在数据节点(Data Node),文件的元数据保存在名字节点(Name Node)。名字节点的内存大小,决定了HDFS文件系统可保存的文件数量,所以大量小文件会影响名字节点的性能(尽管名字节点内存都较大)。 1.1 数据块Blo...
分类:其他好文   时间:2015-01-19 18:52:14    阅读次数:280
python2-gst0.10制作静态包的补丁
gst制作成了静态库,而python2的gst有多个动态库引用gst的库因此,想了一个办法将python2所需要的gst打包成一个单独的共享库办法就是,将python2_gst所有的.so先制作成.a通过nm -g加过滤的办法得到所有链接的gst函数将这些函数生成一个小文件,在一个静态函数中引用所有...
分类:编程语言   时间:2015-01-18 22:33:35    阅读次数:319
Hadoop管理员的十个最佳实践
前言接触Hadoop有两年的时间了,期间遇到很多的问题,既有经典的NameNode和JobTracker内存溢出故障,也有HDFS存储小文件问题,既有任务调度问题,也有MapReduce性能问题.遇到的这些问题有些是Hadoop自身的缺陷(短板),有些则是使用的不当。在解决问题的过程中,有时需要翻源...
分类:其他好文   时间:2015-01-15 12:17:12    阅读次数:150
RequireJS进阶(一)
为了应对日益复杂,大规模的JavaScript开发。我们化整为零,化繁为简。将复杂的逻辑划分一个个小单元,各个击破。这时一个项目可能会有几十个甚至上百个JS文件,每个文件为一个模块单元。如果上线时都是这些小文件,那将对性能造成一定影响。RequireJS提供了一个打包压缩工具r.js来对模块进行合并...
分类:Web程序   时间:2015-01-14 12:36:45    阅读次数:134
HDFS小文件合并问题的优化:copyMerge的改进
1.问题分析 用fsck命令统计 查看HDFS上在某一天日志的大小,分块情况以及平均的块大小,即 分析问题的存在性:从表中可以看出,每天日志量的分块情况:总共大概有268左右的块数,平均块大小为36MB左右,远远不足128MB,这潜在的说明了一个问题。日志产生了很多小文件,大多数都不足128M,严重影响集群的扩展性和性能:首先,在HDFS中,任何block,文件或者目录在内存中均以对象的形式存储,每个对象约占150byte,如果有1000 0000个小文件,每个文件占用一个block,则namenode大...
分类:其他好文   时间:2015-01-13 21:44:23    阅读次数:330
exp和expdp导入导出 Oracle10g学习系列(8)
一、使用二者时应该注意的事项:1、exp和imp是客户端工具程序,它们既可以在客户端使用,也可以在服务端使用。expdp和impdp是服务端的工具程序,他们只能在oracle服务端使用,不能在客户端使用。expdpimpdp导大文件比exp和imp快,可以并行导,但导小文件很慢。网上有人说:一个..
分类:数据库   时间:2015-01-09 19:35:24    阅读次数:248
1027条   上一页 1 ... 90 91 92 93 94 ... 103 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!