分布式文件系统即是网络中多台计算机组合在一起提供一个统一存储及管理的系统。Hadoop提供了一个文件系统接口和多个分布式文件系统实现,其中比较重要的就是HDFS(Hadoop Distributed Filesystem)了。Hadoop是一个综合性的文件系统抽象,因此它也可以集成其他文件系统的实现,如本地文件系统和Amazon S3系统及淘宝 TFS等。概念模型...
分类:
其他好文 时间:
2014-10-20 10:00:53
阅读次数:
281
HBase通常安装在Hadoop HDFS上,但也可以安装在其他实现了Hadoop文件接口的分布式文件系统上,如KFS。glusterfs是一个集群文件系统可扩展到几peta-bytes。它集合了各种存储在infiniband rdma或互连成一个大型并行网络文件系统。存储可以由任何商品等硬件x86_64服务器和sata-ii和infiniband HBA。GlusterFS比Hadoop HDFS可以提供更高的性能,HBase也因此可以获得更高的性能。将HBase安装在GlusterFS上,是可行的。该方...
分类:
系统相关 时间:
2014-10-19 23:22:18
阅读次数:
372
上一篇简单讲了一下HDFS,简单来说就是一个叫做“NameNode”的大哥,带着一群叫做“DataNode”的小弟,完成了一坨坨数据的存储,其中大哥负责保存数据的目录,小弟们负责数据的真正存储,而大哥和小弟其实就是一台台的电脑,他们之间通过交换机,互相联系到了一起。 其实这位大哥和这群小弟不仅...
分类:
其他好文 时间:
2014-10-19 11:34:51
阅读次数:
155
前言 本文大致介绍下Hadoop的一些背景知识,为后面深入学习打下铺垫。什么是Hadoop Hadoop是一个开源分布式计算平台,它以HDFS文件系统和MapReduce计算架构为核心。 前者能够让用户使用一些廉价的硬件搭建出分布式系统,后者则能够让用户在不需要过多了解底层架构细节的情况下,开...
分类:
其他好文 时间:
2014-10-18 18:09:35
阅读次数:
231
学习云计算,必然得了解Hadoop,而Hadoop中的HDFS(分布式文件系统)是一个基础,接下来就写一下我所理解的HDFS。 有一个很有特别的村庄,村庄里面有一个很牛逼的人,叫做“大哥”,村民们都信得过他,于是会把自己家的粮食、农具等等各种各样的东西“打包成一个大的包裹”让“大哥”给存着,等...
分类:
其他好文 时间:
2014-10-18 11:01:31
阅读次数:
255
Hadoop的一大基本原则是移动计算的开销要比移动数据的开销小。因此,Hadoop通常是尽量移动计算到拥有数据的节点上。这就使得Hadoop中读取数据的客户端DFSClient和提供数据的Datanode经常是在一个节点上,也就造成了很多“Local Reads”。本文将介绍在优化Local Reads的一些方案。...
分类:
其他好文 时间:
2014-10-17 18:50:01
阅读次数:
310
分区考虑,不要使用LVMroot-->40Gvar-->100Gswap--2倍系统内存RAM-->8GBMasternode:RAID10,dualEthernetcards,dualpowersupplies,etc.Slavenode:1.RAIDisnotnecessary2.HDFS分区,notusingLVM/etc/fstab--ext3defaults,noatime挂载到/data/N/dfs/dn,forN=0,1,2...(onep..
分类:
其他好文 时间:
2014-10-17 15:43:40
阅读次数:
844
hadoop常见错误集锦:
1.DataXceiver error processing WRITE_BLOCK operation
ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: 192-168-11-58:50010:DataXceiver error processing WRITE_BLOCK operation sr...
分类:
其他好文 时间:
2014-10-17 15:39:14
阅读次数:
247
Hadoop分布式文件系统是设计初衷是可靠的存储大数据集,并且使应用程序高带宽的流式处理存储的大数据集。在一个成千个server的大集群中,每个server不仅要管理存储的这些数据,而且可以执行应用程序任务。通过分布式存储和在各个server间交叉运算,集群和存储可以按需动态经济增长。以下的设计原则...
分类:
其他好文 时间:
2014-10-17 06:42:33
阅读次数:
235
7,在SparkWorker1和SparkWorker2上完成和SparkMaster同样的Hadoop 2.2.0操作,建议使用SCP命令把SparkMaster上安装和配置的Hadoop的各项内容拷贝到SparkWorker1和SparkWorker2上;
8,启动并验证Hadoop分布式集群
第一步:格式化hdfs文件系统:
第二步:进入...
分类:
其他好文 时间:
2014-10-16 16:28:02
阅读次数:
269