搜索关键字：mapreduce partitioner，搜索到4100个结果！码迷,mamicode.com！

设计模式 - Master-Worker模式

Master-Worker模式中 master负责收集任务和初始化，worker负责管理分配协调，具体任务落到具体的task结点中其分工明确与MapReduce的分而治之的思想一致。网上很多草图有些不够具体乍看与Master-Worker模式中编码有一些出入。其中master相当于老板. 把 ...

分类：其他好文时间：2020-04-03 00:37:56 阅读次数：75

hadoop-MapReduce框架原理之Shuffle机制

1.Shuffle机制 1.1 什么是shuffle机制 1.1.1 在hadoop中数据从map阶段传递给reduce阶段的过程就叫shuffle，shuffle机制是整个MapReduce框架中最核心的部分； 1.1.2 shuffle翻译成中文的意思为：洗牌，发牌（核心机制：数据分区，排序，缓 ...

分类：其他好文时间：2020-04-02 18:08:23 阅读次数：115

MongoDB

1.简介 MongoDB并非芒果的意思，而是源于 Humongous（巨大）一词。 1.1MongoDB的特性 MongoDB的3大技术特色如下所示：除了上图所示的还支持：二级索引、动态查询、全文搜索、聚合框架、MapReduce、GridFS、地理位置索引、内存引擎、地理分布等一系列的 ...

分类：数据库时间：2020-04-02 15:48:45 阅读次数：89

MapReduce深入

hadoop中map和reduce都是进程（spark中是线程），map和reduce可以部署在同一个机器上也可以部署在不同机器上。输入数据是hdfs的block，通过一个map函数把它转化为一个个键值对，并同时将这些键值对写入内存缓存区（100M），内存缓存区的数据每满80M就会将这80M数据写 ...

分类：其他好文时间：2020-04-01 00:56:20 阅读次数：58

基于Windows下eclipse的MapReduce开发环境配置

零. 相关文件链接：https://pan.baidu.com/s/1KmfZlxevk07p _Aosnsm2w 提取码：df5l 一. MapReduce环境配置 1. 解压hadoop 把hadoop的安装包解压到Windows下(这里的安装包就是你搭hadoop集群时的安装包,我的是 ) ...

分类：Windows程序时间：2020-03-31 22:40:33 阅读次数：119

hadoop-MapReduce概述

1.MapReduce定义 MapReduce是一个分布式运算程序的编程框架，是用户开发基于hadoop的数据分析应用的核心框架； MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个hadoop集群上； 2.MapReduce优缺点 2. ...

分类：其他好文时间：2020-03-30 16:38:13 阅读次数：83

IDEA，SparkSql读取HIve中的数据

传统Hive计算引擎为MapReduce，在Spark1.3版本之后，SparkSql正式发布，并且SparkSql与apachehive基本完全兼容，基于Spark强大的计算能力，使用Spark处理hive中的数据处理速度远远比传统的Hive快。在idea中使用SparkSql读取HIve表中的数据步骤如下1、首先，准备测试环境，将hadoop集群conf目录下的core-site.xml、hd

分类：数据库时间：2020-03-30 14:42:50 阅读次数：141

Hive优化

整体架构优化点: 根据不同业务需求进行日期分区, 并执行类型动态分区。 hive.exec.dynamic.partition=true 为了减少磁盘存储空间以及I/O次数, 对数据进行压缩(Gzip) mapreduce.output.fileoutputformat.compress=true ...

分类：其他好文时间：2020-03-29 19:55:40 阅读次数：105

集群规模计算

一、数据规模二、集群处理数据的吞吐量 2.1 hdfs的读写测试 Hadoop自带一个测试用的jar包，可以运行它来得知集群处理数据的性能如何 hadoop jar /opt/module/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-c ...

分类：其他好文时间：2020-03-29 12:35:17 阅读次数：225

mapreduce执行job打印的日志聚合

如果两个reduce分别在两台机器上运行,,各自产生的日志,都保存在各自的机器上，所以要看完整地日志必须开启日志聚合功能yarn-site.xml更改设置 ...

分类：其他好文时间：2020-03-28 18:06:28 阅读次数：96

共4100条上一页 1 ... 17 18 19 20 21 ... 410 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)