一、概述 1.是Hadoop中的一套分布式的计算框架 2.将整个计算过程拆分为2个阶段:Map阶段、Reduce阶段 3.Map阶段一般负责数据的整理,Reduce阶段负责数据的汇总 4.如果输入路径是一个文件,则MapReduce只处理这个文件;如果输入的是一个目录,则处理这个目录下的所有文件 - ...
分类:
其他好文 时间:
2020-06-23 15:36:59
阅读次数:
38
默认配置文件 要获取的默认配置文件 文件存放在Hadoop的jar包中的位置 自定义配置文件[etc/hadoop]中 [core-default.xml] hadoop-common-2.10.0.jar/core-default.xml [core-site.xml] [hdfs-default ...
分类:
其他好文 时间:
2020-06-22 12:33:23
阅读次数:
48
一、引言 1、 简介 Avro是Hadoop中的一个子项目,也是Apache中一个独立的项目,Avro是一个基于二进制数据传输高性能的中间件。在Hadoop的其他项目中例如HBase(Ref)和Hive(Ref)的Client端与服务端的数据传输也采用了这个工具。Avro是一个数据序列化的系统,可以 ...
分类:
Web程序 时间:
2020-05-31 22:07:53
阅读次数:
125
org.apache.hadoop.fs.FileSystem是Hadoop中一个相当通用的文件系统的抽象基类,它是一个面向最终用户的接口类。应该将所有可能使用Hadoop分布式文件系统的用户代码编写为使用一个FileSystem对象。Hadoop DFS是一种多机系统,显示为单个磁盘,由于其容错能 ...
背景 早在2013年1月,ORC(Optimized Row Columnar)出现,作为大规模加速Apache Hive和提高存储在Apache Hadoop中的数据的存储效率的计划的一部分。重点是为了提升处理速度和减小文件占用磁盘大小。 目前有很多公司已经大规模使用ORC了,比如Facebook ...
分类:
其他好文 时间:
2020-05-21 16:21:16
阅读次数:
76
https://blog.csdn.net/qq_16403141/article/details/77598532 setOutputKeyClass和setOutputValueClass默认是同时设置map和reduce的输出类型的。 解决办法: 当K2, V2 和K3 , V3类型不一致时, ...
分类:
其他好文 时间:
2020-05-04 19:27:28
阅读次数:
66
1.Shuffle机制 1.1 什么是shuffle机制 1.1.1 在hadoop中数据从map阶段传递给reduce阶段的过程就叫shuffle,shuffle机制是整个MapReduce框架中最核心的部分; 1.1.2 shuffle翻译成中文的意思为:洗牌,发牌(核心机制:数据分区,排序,缓 ...
分类:
其他好文 时间:
2020-04-02 18:08:23
阅读次数:
115
hadoop中map和reduce都是进程(spark中是线程),map和reduce可以部署在同一个机器上也可以部署在不同机器上。 输入数据是hdfs的block,通过一个map函数把它转化为一个个键值对,并同时将这些键值对写入内存缓存区(100M),内存缓存区的数据每满80M就会将这80M数据写 ...
分类:
其他好文 时间:
2020-04-01 00:56:20
阅读次数:
58
1,文件结构 · bin:脚本和命令目录。 · etc:配置文件目录。 · sbin:命令目录,主要包含HDFS和YARN中各类服务的启动和关闭,依赖于bin中的脚本。 · share:各个模块编译后的jar包,和示例代码。 · libexec:各个服务的shell配置文件目录,比如配置日志输出目录 ...
分类:
其他好文 时间:
2020-03-03 01:12:53
阅读次数:
70
一、HDFS的简介及优缺点 HDFS(Hadoop Distributed File System)是hadoop生态系统的一个重要组成部分,是hadoop中的的存储组件,在整个Hadoop中的地位非同一般,是最基础的一部分,因为它涉及到数据存储,MapReduce等计算模型都要依赖于存储在HDFS ...
分类:
其他好文 时间:
2020-02-23 11:48:58
阅读次数:
77