hadoop--大数据最基础、最重要的组件

时间：2019-10-05 20:12:34 阅读：220 评论：0 收藏：0 [点我收藏+]

hadoop是什么？

hadoop是一个由Apache基金会所开发的分布式系统基础架构，hdfs分布式文件存储、MapReduce并行计算。主要是用来解决海量数据的存储和海量数据的分析计算问题，这是狭义上的hadoop。广义上来讲，hadoop通常指的是一个更广泛的概念--hadoop生态圈

技术图片

hadoop三大发行版本

hadoop三大发型版本：Apache、Cloudera、Hortonworks

Apache版本，也成为社区版，是最原始的版本，对入门学习较好
Cloudera版本在大型互联网企业中用的较多，是对社区版进行了封装，主要是解决了和其它大数据组件(比如：hive)的兼容性问题。但是出了问题帮你解决要收费
Hortonworks版本文档较好

公司一般更常用的是Cloudera版本的hadoop，另外Cloudera版本的hadoop也简称为CDH。

hadoop优势

1)高可靠性：hadoop底层维护多个数据副本，所以即使某个机器出现故障，也不会导致数据的丢失。

比如我现在有1G的数据，要存在5台机器上，hadoop默认会先将整个数据进行切割，默认是128M/块，当然这个数值也可以自己改。然后是以三副本进行存储，也就是说每个128M的块，都会被存储三份在不同的机器上。这样即使一台服务器宕机了，数据也不会丢失。

技术图片

2)高扩展性：在集群间分配任务数据，可方便的扩展数以千计的节点。很好理解，如果容量不够了，直接横向扩展，加机器就行。

3)高效性：在MapReduce的思想下，hadoop是并行工作的，以加快任务处理速度。实际上如果学了spark，会发现hadoop自己所描述的易用性、高效性实在是不敢恭维哈。但是hadoop作为大数据生态圈中非常重要的组件，我们是有必要学好的，而且学了hadoop之后，再学spark会轻松很多。而且学习了hadoop，再学spark也会明白为什么spark会比hadoop在效率上高出几十倍、甚至上百倍。

4)高容错性：能够自动将失败的任务重新分配，如果某台机器挂掉了，那么会自动将任务分配到其他的机器上执行

hadoop 1.x和hadoop 2.x的区别

技术图片

hadoop组成

hadoop的组成上面已经说了，主要由四部分组成，但是哪个common，我们一般不用管。因此从下往上只需要关注，hdfs，yarn，MapReduce即可。

hdfs

hdfs:hadoop distributed file system，hadoop分布式文件系统，它由哪几部分组成呢？

1.NameNode(nn)：存储文件的元数据，如文件名，文件目录结构，文件属性(生成时间、副本数、文件权限），以及每个文件的块列表和块所在的DataNode等等。

2.DataNode(dn)：真正用来存储文件块数据以及块数据的校验和，之前说了大文件是要分成多块的，每一块存在不同的DataNode节点(说白了就是服务器、或者电脑)上，每一个节点存储了哪些文件、以及文件被切分了几份都存在哪些DataNode上、文件名、属性等等，这些都叫做元数据，统一交给NameNode管理，而DataNode只负责真正的存储数据。

3. Secondary NameNode(2nn)：用来监控hdfs状态的后台辅助程序，每个一段时间获取hdfs元数据的快照。

yarn

技术图片