自定义Mapper实现 自定义Reducer实现 编写Driver类 本地测试开发 上面使用的都是基于 的,那么如何使用本地呢? 强烈建议 使用 进行测试和开发,非常高效,Debug也很方便。 代码升级 使用代码,删除 的output目录 map端聚合 处理逻辑和Reducer完全一模一样, 即可! ...
分类:
其他好文 时间:
2019-04-03 12:36:05
阅读次数:
167
需要解决的: 如何为每个数据块分配一个Map计算任务,也就是代码是如何发送到数据块所在的服务器上面的,发送后如何启动的,启动之后如何知道自己需要计算的数据在文件什么位置(BlockID是什么)。 处于不同服务器的map输出的<key,value>,如何把相同的key聚合在一起发送给Reduce任务处 ...
分类:
其他好文 时间:
2019-04-02 21:02:25
阅读次数:
201
建一个hash表,将文本中的每个词都放在这个hash表里面,如果这个词第一次放入,就新建一个kry,Value对,key是这个词,Value是1;如果已经有这个词,那么给Value+1。 reduce函数的计算过程:将这个集合中的1求和,再将单词(word)和这个和(sum)组成一个<key,Val ...
分类:
其他好文 时间:
2019-04-02 11:03:58
阅读次数:
177
Hadoop是分布式文件系统 并行处理系统:高效存储和高效处理组件 Mapreduce,函数式编程机制,分Map阶段和reduce阶段,他不但是一个编程方式,同时也是个运行框架,它分两个阶段 Map阶段:抽取各个键值对生成键值对结果集(一般存在本地),这些键值对存储下来并进行排序 reduce阶段: ...
分类:
其他好文 时间:
2019-03-28 19:29:04
阅读次数:
182
hbase特点及简介: hbase源自于谷歌的三大论文之一 GFS -- hdfs MapReduce - MR BigTable - hbase hbase在以Hadoop为基础的生态圈中的地位 hbase和Hadoop的hdfs结合使用,构建在hdfs上的数据库(hbase为hdfs上的海量的结... ...
分类:
其他好文 时间:
2019-03-26 22:37:59
阅读次数:
191
一、Maptask并行度与决定机制 1.一个job任务的map阶段的并行度默认是由该任务的大小决定的; 2.一个split切分分配一个maprask来并行处理; 3.默认情况下,split切分的大小等于blocksize大小; 4.切片不是mapper类中对单词的切片,而是对每一个处理文件的单独切片 ...
分类:
其他好文 时间:
2019-03-24 23:28:59
阅读次数:
691
前言 之前写过稀疏图的实现方法,这次写用矩阵存储数据的算法实现,只要会矩阵相乘的话,实现这个就很简单了。如果有不懂的可以先看一下下面两篇随笔。 MapReduce实现PageRank算法(稀疏图法) Python+MapReduce实现矩阵相乘 算法实现 我们需要输入两个矩阵A和B,我一开始想的是两 ...
分类:
编程语言 时间:
2019-03-24 19:55:50
阅读次数:
225
一、Mapreduce概述 Mapreduce是分布式程序编程框架,也是分布式计算框架,它简化了开发! Mapreduce将用户编写的业务逻辑代码和自带默认组合整合成一个完整的分布式运算程序,并发的运行在hadoop集群上。 二、Mapreduce优缺点 优点:1.易于编程:只用实现几个接口即可完成 ...
分类:
其他好文 时间:
2019-03-24 09:39:32
阅读次数:
136
一、Yarn集群概述及搭建 1.Mapreduce程序运行在多台机器的集群上,而且在运行是要使用很多maptask和reducertask,这个过程中需要一个自动化任务调度平台来调度任务,分配资源,这个平台就是Yarn! 2.Yarn提交任务的流程: 当我们向Yarn集群提交任务后,Yarn通过Re ...
分类:
其他好文 时间:
2019-03-24 09:20:14
阅读次数:
127
虽然可以正常运行,但是会出异常,现给出解决方法。 1.问题: 2. 问题解决: 仔细查看报错是缺少winutils.exe程序。 Hadoop都是运行在Linux系统下的,在windows下eclipse中运行mapreduce程序,要首先安装Windows下运行的支持插件 3. 安装并配置插件(我 ...