Hadoop1的HDFS和Mapreduce在高可用和拓展性方面存在问题。 HDFS存在的问题: Namenode单点故障,难以应用于在线场景。 Namenode压力过大,且内存受限,影响系统扩展性。 Mapreduce存在问题: Jobtracker单点故障 ...
分类:
其他好文 时间:
2014-09-04 10:40:49
阅读次数:
254
HDFSHDFS设计基础与目标:冗余:硬件错误是常态流式数据访问。即数据比量读取而非随机读写,Hadoop擅长做的是数据分析而不是事务处理。大规模数据集简单一致性模型。为了降低系统复杂程度,对文件采用一次性写多多次读的逻辑设置,即是文件一经写入,关闭,再也不能修改。程序采..
分类:
其他好文 时间:
2014-09-04 02:58:58
阅读次数:
277
今天在删除一个hive表的时候,发现hdfs的空间没有释放,刚开始一直觉得是自己删除有问题,结果在hdfs上也没有查到,最后发现是CDH的namenode有一个文件系统垃圾间隔设置,默认设置一天,也就是说删除的文件需要一天才能被删掉。配置如图,希望能帮助要有同样疑惑的人。还有这个..
分类:
其他好文 时间:
2014-09-03 02:48:26
阅读次数:
249
Hbase 是一个分布式的、面向列的开源数据库,其实现是建立在google 的bigTable 理论之上,并基于hadoop HDFS文件系统。 Hbase不同于一般的关系型数据库(RDBMS)。是一种适用于非结构化数据存储的数据库,且Hbase是基于列的数据库。 下面的内容基于我们已经安装好h.....
分类:
其他好文 时间:
2014-09-02 19:37:55
阅读次数:
217
Hadoop介绍 Hadoop是一个能对大量数据进行分布式处理的软件框架。其基本的组成包括hdfs分布式文件系统和可以运行在hdfs文件系统上的MapReduce编程模型,以及基于hdfs和MapReduce而开发的一系列上层应用软件。 hdfs是在一个网络中以流式数据访问模式来存储超大文件的跨.....
分类:
其他好文 时间:
2014-09-02 15:22:34
阅读次数:
365
HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务。1. 简介HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtab...
分类:
其他好文 时间:
2014-09-02 01:34:43
阅读次数:
342
第一篇文章还有要修改的地方,现在我的集群已经扩展到5台(虚拟机)有些配置还要改,这一篇记录一下Hadoop HA 和zookeeper的配置,方便自己以后看。 新的HDFS中的NameNode不再是只有一个了,可以有多个(目前只支持2个)。每一个都有相同的职能。 在HDFS(HA...
分类:
其他好文 时间:
2014-09-01 02:43:42
阅读次数:
521
DEPRECATED: Use of this script to execute hdfs command is deprecated.本人安装的hadoop版本是2.4.0的,但每次执行命令时都会显示下面的信息hadoop@VM_160_34_centos:/usr/local/hadoop-2...
分类:
其他好文 时间:
2014-08-29 22:35:28
阅读次数:
265