Hadoop 是什么 Hadoop 是一个开源的大数据框架同时也是一个分布式计算的解决方案。Hadoop = HDFS (分布式文件系统)+MapReduce(分布式计算) HDFS HDFS 概念 数据块 NameNode DataNode 数据块: 数据块是一个抽象的块,而不是整个文件。默认大小 ...
分类:
其他好文 时间:
2019-08-25 12:00:12
阅读次数:
120
Hadoop 中有三大组件:HDFS、MapReduce、YARN,HDFS 负责大文件存储的问题,MapReduce 负责大数据计算,而 YARN 负责资源的调度,接下来的文章我会一一介绍这几个组件。今天我们先来聊聊 HDFS 的架构及文件的读写流程。 总体架构 HDFS 设计的目的是为了存储大数 ...
分类:
其他好文 时间:
2019-08-24 16:56:05
阅读次数:
103
一、Hadoop的局限 HBase 是一个构建在 Hadoop 文件系统之上的面向列的数据库管理系统。 要想明白为什么产生 HBase,就需要先了解一下 Hadoop 存在的限制?Hadoop 可以通过 HDFS 来存储结构化、半结构甚至非结构化的数据,它是传统数据库的补充,是海量数据存储的最佳方法 ...
分类:
其他好文 时间:
2019-08-24 09:48:31
阅读次数:
65
一、HDFS中的block、packet、chunk 1.Block 在将文件上传到hdfs之间需要分块,这个块就是block,默认为128MB(hadoop2.X),当然可以更改。通过修改core-default.xml文件修改这个值,它是最大的一个单位。 2.Packet Packet是第二大的 ...
分类:
其他好文 时间:
2019-08-23 16:18:07
阅读次数:
73
当hdfs文件对外是公开的则该其他用户就算没有配置相关的权限一样可以进行相关的操作。当hdfs文件对外权限是没有开放的,其他用户若需要进行相关操作则需要通过Ranger进行相关权限的配置。 首先 /input赋权 775 权限 下递归赋权750权限 让权限管理交给ranger 测试1 建hive1, ...
分类:
其他好文 时间:
2019-08-23 13:10:21
阅读次数:
80
第七章 推荐系统实例 7.1 外围架构 数据收集和存储 需要实时存取的数据存储在数据库和缓存中,而大规模的非实时地存取数据存储在分布式文件系统中(HDFS)中。 7.2 推荐系统架构 用户和物品的联系如下所示: 如果认为用户喜欢的物品也是一种用 户特征,或者和用户兴趣相似的其他用户也是一种用户特征, ...
分类:
其他好文 时间:
2019-08-22 13:23:02
阅读次数:
115
Ambari简介 Ambari概述 Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的创建、管理和监控。Ambari已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop和Hcatalog等; ...
分类:
其他好文 时间:
2019-08-20 10:40:13
阅读次数:
119
为什么要有Hadoop? 从计算机诞生到现今,积累了海量的数据,这些海量的数据有结构化、半结构化、非 结构的数据,并且这些海量的数据存储和检索就成为了一大问题。 我们都知道大数据技术难题在于一个数据复杂性、数据量、大规模的数据计算。 Hadoop就是为了解决这些问题而出现的。 Hadoop的诞生 D ...
分类:
其他好文 时间:
2019-08-20 01:15:59
阅读次数:
113
为什么要有Sqoop? 将数据从别的数据库导到Hadoop、Hbase或Hive太麻烦了。 什么是Sqoop? Sqoop就是Hadoop、Hive、HBase等数据仓库与数据库之间传输数据的工具。,就是将导入(输入)和导出(输出)的命令映射成MR程序。 导入:MySQL等数据库数据导入到HDFS、 ...
分类:
其他好文 时间:
2019-08-20 01:07:48
阅读次数:
88
为什么要有Hive? 在使用Hadoop的过程中,大家都会感觉每次都要写MR程序才能操作到HDFS的文件,太麻烦了,而且如果项目又赶,项目人员不会写MR程序,还要花费大量的时间去学,但是我是知道文件内容,是用什么分割的,分割后的每一列是什么意思,感觉好像关系型数据库。 于是有群人就有了个想法,既然我 ...
分类:
其他好文 时间:
2019-08-20 01:02:43
阅读次数:
86