搜索关键字：mapreduce，搜索到4054个结果！码迷,mamicode.com！

工作流调度系统Azkaban的简介和使用

1 概述 1.1 为什么需要工作流调度系统 l 一个完整的数据分析系统通常都是由大量任务单元组成： shell脚本程序，java程序，mapreduce程序、hive脚本等 l 各任务单元之间存在时间先后及前后依赖关系 l 为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行；例如 ...

分类：其他好文时间：2018-12-19 15:40:42 阅读次数：170

超越MapReduce的并行大数据处理

9.1 基于迭代处理平台的并行算法：不动点：核心观点：迭代例析： 1.PageRank(网络连接分析) ...

分类：其他好文时间：2018-12-18 02:31:47 阅读次数：120

Hive(1)-基本概念

一. 什么是Hive Hive：由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质是：将HQL(Hive Query Language)转化成MapReduce程序 1）Hive处 ...

分类：其他好文时间：2018-12-17 18:57:04 阅读次数：217

4、MapReduce思想、运行机制

MapReduce 离线计算框架分而治之 input map shuffle reduce output 分布式并行的计算框架将计算过程分为两个阶段，Map和Reduce Map阶段并行处理输入数据 Reduce阶段对Map结果进行汇总 Shuffle链接Map和Reduce两个阶段 Map T ...

分类：其他好文时间：2018-12-17 14:30:40 阅读次数：198

MapReduce之Map Join

一介绍之所以存在Reduce Join，是因为在map阶段不能获取所有需要的join字段，即：同一个key对应的字段可能位于不同map中。Reduce side join是非常低效的，因为shuffle阶段要进行大量的数据传输。 Map Join是针对以下场景进行的优化：两个待连接表中，有一个表 ...

分类：其他好文时间：2018-12-15 23:52:26 阅读次数：239

2、Hadoop 2.X 概述及生态系统

Hadoop官网 http://hadoop.apache.org/ Hadoop来源 GFS HDFS MapReduce MapReduce BigTable HBase Common The common utilities that support the other Hadoop modu ...

分类：其他好文时间：2018-12-14 01:09:30 阅读次数：214

大数据基础之词频统计Word Count

对文件进行词频统计，是一个大数据领域的hello word级别的应用，来看下实现有多简单： 1 Linux单机处理 egrep -o "\b[[:alpha:]]+\b" test_word.log|sort|uniq -c|sort -rn|head -10 2 Spark分布式处理（Scala） ...

分类：其他好文时间：2018-12-13 19:30:31 阅读次数：132

MapReduce任务学习系列

首先放一张官方图片，大致了解下整个MapReduce的处理过程。抛出如下疑问： 1、MapReduce的基本原理是什么？即利用什么机制来实现的任务拆分处理？ 2、MapReduce任务执行过程是什么？任务怎么提交？如何运行？哪个组件或者模块可以监控任务的运行状态，比如YARN服务？数据存储（原始数 ...

分类：其他好文时间：2018-12-13 01:07:58 阅读次数：243

大数据-Hadoop生态(20)-MapReduce框架原理-OutputFormat

1.outputFormat接口实现类 2.自定义outputFormat 步骤: 1). 定义一个类继承FileOutputFormat 2). 定义一个类继承RecordWrite,重写write方法 3. 案例有一个log文件,将包含nty的输出到nty.log文件,其他的输出到other. ...

分类：其他好文时间：2018-12-12 20:40:19 阅读次数：235

大数据-Hadoop生态(19)-MapReduce框架原理-Combiner合并

1. Combiner概述 2. 自定义Combiner实现步骤 1). 定义一个Combiner继承Reducer,重写reduce方法 2). 在Driver类中添加设置效果 ...

分类：其他好文时间：2018-12-12 19:39:44 阅读次数：172

共4054条上一页 1 ... 69 70 71 72 73 ... 406 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)