一. Hadoop Yarn 是什么 在古老的 Hadoop1.0 中,MapReduce 的 JobTracker 负责了太多的工作,包括资源调度,管理众多的 TaskTracker 等工作。这自然是不合理的,于是 Hadoop 在 1.0 到 2.0 的升级过程中,便将 JobTracker 的 ...
分类:
其他好文 时间:
2019-01-06 20:44:40
阅读次数:
190
1 HDFS简介 1.1 Hadoop 2.0介绍 Hadoop是Apache的一个分布式系统基础架构,可以为海量数据提供存储和计算。Hadoop 2.0即第二代Hadoop系统,其框架最核心的设计是HDFS、MapReduce和YARN。其中,HDFS为海量数据提供存储,MapReduce用于分布 ...
分类:
其他好文 时间:
2019-01-06 20:06:24
阅读次数:
205
在生产环境中使用Hive,强烈建议使用HiveServer2来提供服务,好处有: 在应用端不用部署Hadoop和Hive客户端; 相比hive-cli方式,HiveServer2不用直接将HDFS和Metastore暴漏给用户; 有安全认证机制,并且支持自定义权限校验; 有HA机制,解决应用端的并发 ...
分类:
其他好文 时间:
2019-01-05 13:34:41
阅读次数:
204
hadoop生态系统如下图所示: HDFS: HDFS(Hadoop Distributed File System)是分布式文件系统,是针对谷歌开发的分布式文件系统GFS(Google File System)的开源实现,是Hadoop两大核心组成部分之一。 HDFS有NameNode和DataN ...
分类:
其他好文 时间:
2019-01-04 23:33:32
阅读次数:
344
是一个并行计算框架(计算的数据源比较广泛 HDFS、RDBMS、NoSQL),Hadoop的 MR模块充分利用了HDFS中所有数据节点(datanode)所在机器的内存、CUP以及少量磁盘完成对大数据集的分布式计算。MapReduce将计算分为两个阶段: 1. 通过将一个大的计算任务分割成若干个小任 ...
分类:
其他好文 时间:
2019-01-04 21:59:10
阅读次数:
207
下图显示了HDFS文件系统中路径为“localhost:50070/explorer.html#/user/hadoop”的目录中所有的文件信息: 对于该目录下的所有文件,我们将执行以下操作: 首先,从该目录中过滤出所有后缀名不为".abc"的文件。 然后,对过滤之后的文件进行读取。 最后,将这些文 ...
分类:
其他好文 时间:
2019-01-04 20:23:59
阅读次数:
262
1.简介 HBase是一个基于HDFS的、分布式的、面向列的非关系型数据库。 HBase的特点 1.海量数据存储,HBase表中的数据能够容纳上百亿行*上百万列。 2.面向列的存储,数据在表中是按照列进行存储的,能够动态的增加列并对列进行各种操作。 3.准实时查询,HBase在海量的数据量下能够接近 ...
分类:
其他好文 时间:
2019-01-04 18:46:00
阅读次数:
170
数据采集:采用Flume收集日志,采用Sqoop将RDBMS以及NoSQL中的数据同步到HDFS上 消息系统:可以加入Kafka防止数据丢失 实时计算:实时计算使用Spark Streaming消费Kafka中收集的日志数据,实时计算结果大多保存在Redis中 机器学习:使用了Spark MLlib ...
分类:
其他好文 时间:
2019-01-04 14:49:53
阅读次数:
154
(1)避免重复的RDD案例:valrdd1=sc.textFile("hdfs://zzy/hello.txt")rdd1.map(...)valrdd2=sc.textFile("hdfs://zzy/hello.txt")rdd2.reduce(...)这里条用了两次textFile,并且读取的是同一个文件,造成了多次的磁盘读取,如果是hi同一个文件,读取一次即可。(2)尽可能多的复用一个RD
分类:
其他好文 时间:
2019-01-04 12:34:43
阅读次数:
148