1、HDFS的设计 HDFS是什么:HDFS即Hadoop分布式文件系统(Hadoop Distributed Filesystem),以流式数据访问模式来存储超大文件,运行于商用硬件集群上,是管理网络中跨多台计算机存储的文件系统。 HDFS不适合用在:要求低时间延迟数据访问的应用,存储大量的小文件 ...
分类:
其他好文 时间:
2019-05-11 09:25:26
阅读次数:
101
问题: google translate对于大文件不支持,咋办? 思路:自己写个函数把的文件拆成小文件,再用google translate! code: ...
分类:
其他好文 时间:
2019-05-04 00:13:50
阅读次数:
158
一、Spark中的Shuffle过程 Shuffle分为两种:Shuffle write、Shuffle read Spark中Shuffle分为两种:HahShuffle、SortShuffle; 1、HashShuffle 磁盘小文件的个数为:M*R = 4*3 =12个 每一个buffer的大 ...
分类:
其他好文 时间:
2019-05-02 15:36:55
阅读次数:
1448
注:总结自吴浩麟 《webpack深入浅出》第四章--优化 1.缩小文件的搜索范围 1.1 优化loader:module.rules中,使用test,include,exclude尽量准确地命中文件(夹) 1.2 优化resolve.extensions:后缀列表要尽可能小;频率高的文件后缀要放在 ...
分类:
Web程序 时间:
2019-04-29 12:16:01
阅读次数:
176
1、先查看需要收缩文件系统的使用情况,收缩后的文件系统空间不能小于已经使用的空间 df -hT 2、卸载需要收缩的文件系统(以/dev/vg0/lvm1为例) umount /dev/vg0/lvm1 3、检测文件系统是否有发生错误: e2fsck -f /dev/vg0/lvm1 4、缩小文件系统 ...
分类:
其他好文 时间:
2019-04-28 09:46:42
阅读次数:
162
MapReduce 里面的shuffle:描述者数据从map task 输出到reduce task 输入的这段过程 Shuffle 过程: 首先,map 输出的<key,value > 会放在内存中,内存有一定的大小,超过之后,会将内存里的东西溢写(spill) 到磁盘(disk)中 。在从内存溢 ...
分类:
其他好文 时间:
2019-04-26 13:17:05
阅读次数:
109
在有些时候,想要控制hql执行的mapper,reducer个数,reducer设置过少,会导致每个reducer要处理的数据过多,这样可能会导致OOM异常,如果reducer设置过多,则会导致产生很多小文件,这样对任务的执行以及集群都不太好.通常情况下这两个参数都不需要手动设置,Hive会根据文件 ...
分类:
其他好文 时间:
2019-04-22 20:59:35
阅读次数:
258
Hive的后端存储是HDFS,它对大文件的处理是非常高效的,如果合理配置文件系统的块大小,NameNode可以支持很大的数据量。但是在数据仓库中,越是上层的表其汇总程度就越高,数据量也就越小。而且这些表通常会按日期进行分区,随着时间的推移,HDFS的文件数目就会逐渐增加。 小文件带来的问题 关于这个 ...
分类:
其他好文 时间:
2019-04-21 20:02:52
阅读次数:
280
1,最近在实际使用linux的过程中中,遇到了一个小问题 在之前,看到根目录“/”下多了一个“~”目录,看到别的服务器都没有,于是忍不住rm -rf ~了。运行了10来秒,感觉不对劲,用时太长了,应该是个小文件才对,赶紧停了。 然后第二天重新连接这个服务器时,发现命令行头[root@XXXX-XX- ...
分类:
系统相关 时间:
2019-04-20 18:19:26
阅读次数:
178