搜索关键字：mapreduce，搜索到4054个结果！码迷,mamicode.com！

hive之简介

第一节：hive的产生背景 mapreduce处理的绝大多数的数据，都是格式化的数据。格式化的数据的处理sql最擅长。mapjoin reducejoin的开发代码要写40行，而sql就一个sql语句就可以了，例如：select * from a join b on a.id=b.id;。 mapr ...

分类：其他好文时间：2019-06-17 01:07:49 阅读次数：119

Oozie

尚硅谷大数据技术之Oozie 第1章 Oozie简介 Oozie英文翻译为：驯象人。一个基于工作流引擎的开源框架，由Cloudera公司贡献给Apache，提供对Hadoop MapReduce、Pig Jobs的任务调度与协调。Oozie需要部署到Java Servlet容器中运行。主要用于定时调 ...

分类：其他好文时间：2019-06-16 13:47:39 阅读次数：114

第3节 mapreduce高级：4、倒排索引的建立

倒排索引建立需求分析需求：有大量的文本（文档、网页），需要建立搜索索引最终实现的结果就是哪个单词在哪个文章当中出现了多少次思路分析：首选将文档的内容全部读取出来，加上文档的名字作为key，文档的value为1，组织成这样的一种形式的数据 map端数据输出 hello-a.txt 1tom- ...

分类：其他好文时间：2019-06-16 13:30:53 阅读次数：106

第3节 mapreduce高级：2、3、课程大纲&共同好友求取步骤一、二

第五天课程大纲：1、社交粉丝的数据分析：求共同好友2、倒排索引的建立3、自定义inputFormat合并小文件 4、自定义outputformat5、分组求topN6、MapReduce的其他补充了解7、mapreduce的参数优化理解8、yarn的资源调度管理例子1：社交粉丝数据分析逻辑分 ...

分类：其他好文时间：2019-06-16 00:21:34 阅读次数：112

第2节 mapreduce深入学习：15、reduce端的join算法的实现

reduce端的join算法：例子：商品表数据 product： pidp0001,小米5,1000,2000p0002,锤子T1,1000,3000 订单表数据 order： pid1001,20150710,p0001,21002,20150710,p0002,31002,20150710, ...

分类：编程语言时间：2019-06-15 20:29:33 阅读次数：124

第2节 mapreduce深入学习：12、reducetask运行机制（多看几遍）

ReduceTask的运行的整个过程背下来1、启动线程到mapTask那里去拷贝数据，拉取属于每一个reducetask自己内部的数据2、数据的合并，拉取过来的数据进行合并，合并的过程，有可能在内存当中，有可能在磁盘当中，有可能在内存和磁盘当中，合并的时候同时要进行分组操作3、调用reduce逻辑 ...

分类：其他好文时间：2019-06-15 17:34:44 阅读次数：91

Hadoop中的map端连接和reduce端连接以及半连接

MapReduce表连接操作之Map端join https://blog.csdn.net/lzm1340458776/article/details/42971075 MapReduce表连接操作之Reduce端join https://blog.csdn.net/lzm1340458776/ar ...

分类：其他好文时间：2019-06-15 13:39:34 阅读次数：143

spark源码阅读--shuffle过程分析

ShuffleManager（一）本篇,我们来看一下spark内核中另一个重要的模块，Shuffle管理器ShuffleManager。shuffle可以说是分布式计算中最重要的一个概念了，数据的join，聚合去重等操作都需要这个步骤。另一方面，spark之所以比mapReduce的性能高其中一个 ...

分类：其他好文时间：2019-06-15 09:57:51 阅读次数：87

Spark streaming storm map reduce区别与联系

1.1 基本概念 Storm是一个流式计算框架，Storm采用Java和Clojure编写，其优点是全内存计算，所以它的定位是分布式实时计算。 Spark是一个基于内存计算的开源集群计算系统，目的是更快速的进行数据分析。Spark类似于Hadoop MapReduce的通用并行计算框架，Spark基 ...

分类：其他好文时间：2019-06-15 00:24:40 阅读次数：176

Hive 入门

1. Hive 基本概念 1.1 Hive 介绍 Hive 由 Facebook 开源用于解决海量结构化日志的数据统计； Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL 查询功能；本质是：将 HQL 转化成 MapReduce 程序； 1 ...

分类：其他好文时间：2019-06-14 23:48:16 阅读次数：123

共4054条上一页 1 ... 48 49 50 51 52 ... 406 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)