1. 自定义GroupingComparator 1.1.需求:有如下订单 现在需要求出每一个订单中成交金额最大的一笔交易 1.2.分析: 1、利用“订单id和成交金额”Bean作为key,可以将map阶段读取到的所有订单数据按照id分区,按照金额排序, 发送到reduce 2、在reduce端利用 ...
分类:
其他好文 时间:
2018-07-02 17:13:27
阅读次数:
219
自己学习排序和二次排序的知识整理如下。 1.Hadoop的序列化格式介绍:Writable 2.Hadoop的key排序逻辑 3.全排序 4.如何自定义自己的Writable类型 5.如何实现二次排序 1.Hadoop的序列化格式介绍:Writable 要了解和编写MR实现排序必须要知道的第一个知识 ...
分类:
编程语言 时间:
2018-07-01 17:51:33
阅读次数:
182
最近分析和比较了Hive和并行数据仓库的架构,本文记下一些体会。 Hive是架构在Hadoop MapReduce Framework之上的开源数据分析系统。 Hive具有如下特点: 1. 数据以HDFS文件的形式存储,从而可以很方便的使用外部文件 2. 元数据存储独立于数据存储之外,从而解耦合元数 ...
分类:
其他好文 时间:
2018-06-30 10:50:38
阅读次数:
358
本篇分两部分,第一部分分析使用 java 提交 mapreduce 任务时对 mapper 数量的控制,第二部分分析使用 streaming 形式提交 mapreduce 任务时对 mapper 数量的控制。 环境:hadoop-3.0.2 前言: 熟悉 hadoop mapreduce 的人可能已 ...
分类:
移动开发 时间:
2018-06-26 19:36:47
阅读次数:
343
1.Mapper 1.1 泛型参数 Mapper有四个泛型参数,Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT>: KEYIN:默认读取的一行文本的起始偏移量.Long类型,在Hadoop中包装成LongWriteable VALUEIN:默认读取的一行文本的字符串信 ...
分类:
其他好文 时间:
2018-06-06 18:24:08
阅读次数:
619
一简介 1.1 Spark概述 Apache Spark是一个快速且通用的集群计算系统。它提供Java,Scala,Python和R中的高级API以及支持通用执行图的优化引擎。是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通 ...
分类:
其他好文 时间:
2018-06-06 00:59:22
阅读次数:
1418
Hadoop MapReduceV2(Yarn) 框架简介 原 Hadoop MapReduce 框架的问题 对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考 Hadoop 官方简介。使用和学 ...
分类:
其他好文 时间:
2018-04-17 11:31:17
阅读次数:
153
参考来源:http://www.yiibai.com/spark/ 概述 Apache Spark是一个集群计算设计的快速计算。它是建立在Hadoop MapReduce之上,它扩展了 MapReduce 模式,有效地使用更多类型的计算,其中包括交互式查询和流处理。Spark的主要特征是其内存集群计 ...
分类:
其他好文 时间:
2018-04-14 00:36:26
阅读次数:
178
大数据采集、清洗、处理:使用MapReduce进行离线数据分析完整案例
分类:
其他好文 时间:
2018-04-09 00:14:41
阅读次数:
367