搜索关键字：mapreduce partitioner，搜索到4100个结果！码迷,mamicode.com！

MapReduce 编程系列九使用HashPartitioner来调节Reducer的计算负载

example4演示了如何指定Reducer的数量，本节演示如何使用HashPartitioner将Mapper的输出按照key进行分组后交给Reducer来处理。合理的分组策略将使得每个Reducer获得的计算负载差距不大，从而整体reduce的性能更加均衡。Reducer的数量由HashPartitioner函数getPartition返回值来确定。public int getPartitio...

分类：其他好文时间：2014-10-03 16:37:14 阅读次数：220

MapReduce 编程系列八 Reducer数目

本篇介绍如何控制reduce的数目。前面观察结果文件，都会发现一般是以part-r-00000 形式出现多个文件，其实这个reducer的数目有关系，reducer数目多，结果文件数目就多。在初始化job的时候，是可以设置reducer的数目的。example4在example的基础上做了改动。修改了pom.xml，使得结束一个参数作为reducer的数目。修改了LogJob.java的代码，作为...

分类：其他好文时间：2014-10-03 15:39:04 阅读次数：265

Hive简介

Hive简介1、hive基本概念hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的Map...

分类：其他好文时间：2014-10-03 12:52:54 阅读次数：184

Rhel6-hadoop分布式部署配置文档

理论基础：Hadoop 分布式文件系统架构HDFS 负责大数据存储MapReduce 负责大数据计算namenode master守护进程datanode slaves上负责存储的进程secondarynamenode master上提供周期检查和清理任务的进程jobtracker maste...

分类：其他好文时间：2014-10-03 01:34:04 阅读次数：451

MapReduce 编程系列八根据输入路径产生输出路径和清除HDFS目录

有了前面的MultipleOutputs的使用经验，就可以将HDFS输入目录的路径解析出来，组成输出路径，这在业务上是十分常用的。这样其实是没有多文件名输出，仅仅是调用了MultipleOutputs的addNamedOutput方法一次，设置文件名为result.先看pom.xml，现在参数只有一个输入目录了，输出目录会在该路径后面自动加上/output.<project xmlns="htt...

分类：其他好文时间：2014-10-03 00:03:53 阅读次数：393

MapReduce 编程系列六 MultipleOutputs使用

在前面的例子中，输出文件名是默认的：_logs part-r-00001 part-r-00003 part-r-00005 part-r-00007 part-r-00009 part-r-00011 part-r-00013 _SUCCESS part-r-00000 part-r-00002 part-r-00004 part-r-00006 part-...

分类：其他好文时间：2014-10-02 20:41:53 阅读次数：261

MapReduce 编程系列七 MapReduce程序日志查看

首先，如果需要打印日志，不需要用log4j这些东西，直接用System.out.println即可，这些输出到stdout的日志信息可以在jobtracker站点最终找到。其次，如果在main函数启动的时候用System.out.println打印的日志，直接在控制台就可以看到。再其次，jobtracker站点很重要。http://your_name_node:50030/jobtracker.j...

分类：其他好文时间：2014-10-02 20:12:33 阅读次数：213

Apache Hadoop 下一代的MapReduce(YARN)

原文链接 MapReduce已经在hadoop-0.23中经历了彻底的检修，现在，我们有了称之为MapReduce2.0(MRv2) 或者 YARN的新的框架。 MRv2基本的理念是将JobTracker中两个主要的功能(资源管理和作业调度/监控)，拆分为单独...

分类：其他好文时间：2014-10-02 13:43:03 阅读次数：159

Apache Spark1.1.0部署与开发环境搭建

Spark是Apache公司推出的一种基于Hadoop Distributed File System(HDFS)的并行计算架构。与MapReduce不同，Spark并不局限于编写map和reduce两个方法，其提供了更为强大的内存计算(in-memory computing)模型，使得用户可以.....

分类：其他好文时间：2014-10-01 17:33:51 阅读次数：456

MapReduce的一点理解

对于MapReduce编程，大概率的流程用过的人或多或少都清楚，但是归结到细节上，就有的地方不清楚了，下面根据自己的疑问，加上从网上各处，找到的被人的描述，最自己的疑问做出回答。1.　MapReduce 和 HDFS有什么关系？首先，HDFS和MapReduce是Hadoop最核心的设计；对.....

分类：其他好文时间：2014-09-30 18:54:49 阅读次数：871

共4100条上一页 1 ... 371 372 373 374 375 ... 410 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)