Master-Worker模式中 master负责收集任务和初始化,worker负责管理分配协调,具体任务落到具体的task结点中 其分工明确 与MapReduce的分而治之的思想一致。网上很多草图有些不够具体 乍看与Master-Worker模式中编码有一些出入。 其中master相当于老板. 把 ...
分类:
其他好文 时间:
2020-04-03 00:37:56
阅读次数:
75
1.Shuffle机制 1.1 什么是shuffle机制 1.1.1 在hadoop中数据从map阶段传递给reduce阶段的过程就叫shuffle,shuffle机制是整个MapReduce框架中最核心的部分; 1.1.2 shuffle翻译成中文的意思为:洗牌,发牌(核心机制:数据分区,排序,缓 ...
分类:
其他好文 时间:
2020-04-02 18:08:23
阅读次数:
115
1.简介 MongoDB并非芒果的意思,而是源于 Humongous(巨大)一词。 1.1MongoDB的特性 MongoDB的3大技术特色如下所示: 除了上图所示的还 支持 : 二级索引、动态查询、全文搜索 、聚合框架、MapReduce、GridFS、地理位置索引、内存引擎 、地理分布等一系列的 ...
分类:
数据库 时间:
2020-04-02 15:48:45
阅读次数:
89
hadoop中map和reduce都是进程(spark中是线程),map和reduce可以部署在同一个机器上也可以部署在不同机器上。 输入数据是hdfs的block,通过一个map函数把它转化为一个个键值对,并同时将这些键值对写入内存缓存区(100M),内存缓存区的数据每满80M就会将这80M数据写 ...
分类:
其他好文 时间:
2020-04-01 00:56:20
阅读次数:
58
零. 相关文件 链接:https://pan.baidu.com/s/1KmfZlxevk07p _Aosnsm2w 提取码:df5l 一. MapReduce环境配置 1. 解压hadoop 把hadoop的安装包解压到Windows下(这里的安装包就是你搭hadoop集群时的安装包,我的是 ) ...
1.MapReduce定义 MapReduce是一个分布式运算程序的编程框架,是用户开发基于hadoop的数据分析应用的核心框架; MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上; 2.MapReduce优缺点 2. ...
分类:
其他好文 时间:
2020-03-30 16:38:13
阅读次数:
83
传统Hive计算引擎为MapReduce,在Spark1.3版本之后,SparkSql正式发布,并且SparkSql与apachehive基本完全兼容,基于Spark强大的计算能力,使用Spark处理hive中的数据处理速度远远比传统的Hive快。在idea中使用SparkSql读取HIve表中的数据步骤如下1、首先,准备测试环境,将hadoop集群conf目录下的core-site.xml、hd
分类:
数据库 时间:
2020-03-30 14:42:50
阅读次数:
141
整体架构优化点: 根据不同业务需求进行日期分区, 并执行类型动态分区。 hive.exec.dynamic.partition=true 为了减少磁盘存储空间以及I/O次数, 对数据进行压缩(Gzip) mapreduce.output.fileoutputformat.compress=true ...
分类:
其他好文 时间:
2020-03-29 19:55:40
阅读次数:
105
一、数据规模 二、集群处理数据的吞吐量 2.1 hdfs的读写测试 Hadoop自带一个测试用的jar包,可以运行它来得知集群处理数据的性能如何 hadoop jar /opt/module/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-c ...
分类:
其他好文 时间:
2020-03-29 12:35:17
阅读次数:
225
如果两个reduce分别在两台机器上运行,,各自产生的日志,都保存在各自的机器上, 所以要看完整地日志必须开启日志聚合功能yarn-site.xml更改设置 ...
分类:
其他好文 时间:
2020-03-28 18:06:28
阅读次数:
96