搜索关键字：hadoop-mapreduce，搜索到502个结果！码迷,mamicode.com！

Hadoop_26_MapReduce_Reduce端使用GroupingComparator求同一订单中最大金额的订单

1. 自定义GroupingComparator 1.1.需求：有如下订单现在需要求出每一个订单中成交金额最大的一笔交易 1.2.分析： 1、利用“订单id和成交金额”Bean作为key，可以将map阶段读取到的所有订单数据按照id分区，按照金额排序，发送到reduce 2、在reduce端利用 ...

分类：其他好文时间：2018-07-02 17:13:27 阅读次数：219

Hadoop---mapreduce排序和二次排序以及全排序

自己学习排序和二次排序的知识整理如下。 1.Hadoop的序列化格式介绍:Writable 2.Hadoop的key排序逻辑 3.全排序 4.如何自定义自己的Writable类型 5.如何实现二次排序 1.Hadoop的序列化格式介绍:Writable 要了解和编写MR实现排序必须要知道的第一个知识 ...

分类：编程语言时间：2018-07-01 17:51:33 阅读次数：182

Hive和并行数据仓库的比较

最近分析和比较了Hive和并行数据仓库的架构，本文记下一些体会。 Hive是架构在Hadoop MapReduce Framework之上的开源数据分析系统。 Hive具有如下特点： 1. 数据以HDFS文件的形式存储，从而可以很方便的使用外部文件 2. 元数据存储独立于数据存储之外，从而解耦合元数 ...

分类：其他好文时间：2018-06-30 10:50:38 阅读次数：358

MapReduce ：基于 FileInputFormat 的 mapper 数量控制

本篇分两部分，第一部分分析使用 java 提交 mapreduce 任务时对 mapper 数量的控制，第二部分分析使用 streaming 形式提交 mapreduce 任务时对 mapper 数量的控制。环境：hadoop-3.0.2 前言：熟悉 hadoop mapreduce 的人可能已 ...

分类：移动开发时间：2018-06-26 19:36:47 阅读次数：343

[Hadoop]-MapReduce-使用篇

1.Mapper 1.1 泛型参数 Mapper有四个泛型参数,Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT>: KEYIN:默认读取的一行文本的起始偏移量.Long类型,在Hadoop中包装成LongWriteable VALUEIN:默认读取的一行文本的字符串信 ...

分类：其他好文时间：2018-06-06 18:24:08 阅读次数：619

CentOS7.5之spark2.3.0安装

一简介 1.1 Spark概述 Apache Spark是一个快速且通用的集群计算系统。它提供Java，Scala，Python和R中的高级API以及支持通用执行图的优化引擎。是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通 ...

分类：其他好文时间：2018-06-06 00:59:22 阅读次数：1418

Hadoop 新 MapReduce 框架 Yarn 详解

Hadoop MapReduceV2(Yarn) 框架简介原 Hadoop MapReduce 框架的问题对于业界的大数据存储及分布式处理系统来说，Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架，对于 Hadoop 框架的介绍在此不再累述，读者可参考 Hadoop 官方简介。使用和学 ...

分类：其他好文时间：2018-04-17 11:31:17 阅读次数：153

学习笔记--Spark

参考来源：http://www.yiibai.com/spark/ 概述 Apache Spark是一个集群计算设计的快速计算。它是建立在Hadoop MapReduce之上，它扩展了 MapReduce 模式，有效地使用更多类型的计算，其中包括交互式查询和流处理。Spark的主要特征是其内存集群计 ...

分类：其他好文时间：2018-04-14 00:36:26 阅读次数：178

mapreduce 高级案例倒排索引

大数据hadoop系列

分类：其他好文时间：2018-04-11 10:43:48 阅读次数：175

大数据采集、清洗、处理：使用MapReduce进行离线数据分析完整案例

分类：其他好文时间：2018-04-09 00:14:41 阅读次数：367

共502条上一页 1 ... 7 8 9 10 11 ... 51 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)