码迷,mamicode.com
首页 >  
搜索关键字:mapreduce topk算法    ( 4057个结果
MapReduce 中的两表 join 实例(二)
packagecom.baidu.uilt; importjava.io.*; importorg.apache.hadoop.io.*; publicclassTextPairimplementsWritableComparable<TextPair>{ privateTextfirst; privateTextsecond; publicTextPair(){ set(newText(),newText()); } publicTextPair(Stringfirst,Strings..
分类:其他好文   时间:2014-10-04 03:32:06    阅读次数:303
MapReduce 编程 系列十一 Map阶段的调优
MapOutputBuffer对于每一个Map,都有一个内存buffer用来缓存中间结果,这不仅可以缓存,而且还可以用来排序,被称为MapOutputBuffer, 设置这个buffer大小的配置是io.sort.mb默认值是100MB.一般当buffer被使用到一定比例,就会将Map的中间结果往磁盘上写,这个比例的配置是:io.sort.spill.percent默认值是80%或者0.8.在内存...
分类:其他好文   时间:2014-10-03 23:54:35    阅读次数:273
MapReduce 编程 系列九 使用HashPartitioner来调节Reducer的计算负载
example4演示了如何指定Reducer的数量,本节演示如何使用HashPartitioner将Mapper的输出按照key进行分组后交给Reducer来处理。合理的分组策略将使得每个Reducer获得的计算负载差距不大,从而整体reduce的性能更加均衡。Reducer的数量由HashPartitioner函数getPartition返回值来确定。public int getPartitio...
分类:其他好文   时间:2014-10-03 16:37:14    阅读次数:220
MapReduce 编程 系列八 Reducer数目
本篇介绍如何控制reduce的数目。前面观察结果文件,都会发现一般是以part-r-00000 形式出现多个文件,其实这个reducer的数目有关系,reducer数目多,结果文件数目就多。在初始化job的时候,是可以设置reducer的数目的。example4在example的基础上做了改动。修改了pom.xml,使得结束一个参数作为reducer的数目。修改了LogJob.java的代码,作为...
分类:其他好文   时间:2014-10-03 15:39:04    阅读次数:265
Hive简介
Hive简介1、hive基本概念hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的Map...
分类:其他好文   时间:2014-10-03 12:52:54    阅读次数:184
Rhel6-hadoop分布式部署配置文档
理论基础:Hadoop 分布式文件系统架构HDFS 负责大数据存储MapReduce 负责大数据计算namenode master守护进程datanode slaves上负责存储的进程secondarynamenode master上提供周期检查和清理任务的进程jobtracker maste...
分类:其他好文   时间:2014-10-03 01:34:04    阅读次数:451
MapReduce 编程 系列八 根据输入路径产生输出路径和清除HDFS目录
有了前面的MultipleOutputs的使用经验,就可以将HDFS输入目录的路径解析出来,组成输出路径,这在业务上是十分常用的。这样其实是没有多文件名输出,仅仅是调用了MultipleOutputs的addNamedOutput方法一次,设置文件名为result.先看pom.xml, 现在参数只有一个输入目录了,输出目录会在该路径后面自动加上/output.<project xmlns="htt...
分类:其他好文   时间:2014-10-03 00:03:53    阅读次数:393
MapReduce 编程 系列六 MultipleOutputs使用
在前面的例子中,输出文件名是默认的:_logs part-r-00001 part-r-00003 part-r-00005 part-r-00007 part-r-00009 part-r-00011 part-r-00013 _SUCCESS part-r-00000 part-r-00002 part-r-00004 part-r-00006 part-...
分类:其他好文   时间:2014-10-02 20:41:53    阅读次数:261
MapReduce 编程 系列七 MapReduce程序日志查看
首先,如果需要打印日志,不需要用log4j这些东西,直接用System.out.println即可,这些输出到stdout的日志信息可以在jobtracker站点最终找到。其次,如果在main函数启动的时候用System.out.println打印的日志,直接在控制台就可以看到。再其次,jobtracker站点很重要。http://your_name_node:50030/jobtracker.j...
分类:其他好文   时间:2014-10-02 20:12:33    阅读次数:213
Apache Hadoop 下一代的MapReduce(YARN)
原文链接 MapReduce已经在hadoop-0.23中经历了彻底的检修,现在,我们有了称之为MapReduce2.0(MRv2) 或者 YARN的新的框架。 MRv2基本的理念是将JobTracker中两个主要的功能(资源管理和作业调度/监控),拆分为单独...
分类:其他好文   时间:2014-10-02 13:43:03    阅读次数:159
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!