码迷,mamicode.com
首页 >  
搜索关键字:hadoop-mapreduce    ( 502个结果
MapReduce 编程 系列十一 Map阶段的调优
MapOutputBuffer对于每一个Map,都有一个内存buffer用来缓存中间结果,这不仅可以缓存,而且还可以用来排序,被称为MapOutputBuffer, 设置这个buffer大小的配置是io.sort.mb默认值是100MB.一般当buffer被使用到一定比例,就会将Map的中间结果往磁盘上写,这个比例的配置是:io.sort.spill.percent默认值是80%或者0.8.在内存...
分类:其他好文   时间:2014-10-03 23:54:35    阅读次数:273
MapReduce 编程 系列九 使用HashPartitioner来调节Reducer的计算负载
example4演示了如何指定Reducer的数量,本节演示如何使用HashPartitioner将Mapper的输出按照key进行分组后交给Reducer来处理。合理的分组策略将使得每个Reducer获得的计算负载差距不大,从而整体reduce的性能更加均衡。Reducer的数量由HashPartitioner函数getPartition返回值来确定。public int getPartitio...
分类:其他好文   时间:2014-10-03 16:37:14    阅读次数:220
MapReduce 编程 系列八 根据输入路径产生输出路径和清除HDFS目录
有了前面的MultipleOutputs的使用经验,就可以将HDFS输入目录的路径解析出来,组成输出路径,这在业务上是十分常用的。这样其实是没有多文件名输出,仅仅是调用了MultipleOutputs的addNamedOutput方法一次,设置文件名为result.先看pom.xml, 现在参数只有一个输入目录了,输出目录会在该路径后面自动加上/output.<project xmlns="htt...
分类:其他好文   时间:2014-10-03 00:03:53    阅读次数:393
MapReduce 编程 系列六 MultipleOutputs使用
在前面的例子中,输出文件名是默认的:_logs part-r-00001 part-r-00003 part-r-00005 part-r-00007 part-r-00009 part-r-00011 part-r-00013 _SUCCESS part-r-00000 part-r-00002 part-r-00004 part-r-00006 part-...
分类:其他好文   时间:2014-10-02 20:41:53    阅读次数:261
MapReduce 编程 系列七 MapReduce程序日志查看
首先,如果需要打印日志,不需要用log4j这些东西,直接用System.out.println即可,这些输出到stdout的日志信息可以在jobtracker站点最终找到。其次,如果在main函数启动的时候用System.out.println打印的日志,直接在控制台就可以看到。再其次,jobtracker站点很重要。http://your_name_node:50030/jobtracker.j...
分类:其他好文   时间:2014-10-02 20:12:33    阅读次数:213
JStorm 是一个分布式实时计算引擎
alibaba/jstormJStorm 是一个分布式实时计算引擎。JStorm 是一个类似Hadoop MapReduce的系统, 用户按照指定的接口实现一个任务,然后将这个任务递交给JStorm系统,Jstorm将这个任务跑起来,并且按7 * 24小时运行起来,一旦中间一个worker 发生意外...
分类:Web程序   时间:2014-09-29 13:56:41    阅读次数:273
MapReduce 编程 系列四 MapReduce例子程序运行
MapReduce程序编译是可以在普通的Java环境下进行,现在来到真实的环境上运行。首先,将日志文件放到HDFS目录下$ hdfs dfs -put *.csv /user/chenshu/share/logs/ 14/09/27 17:03:22 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your...
分类:其他好文   时间:2014-09-27 21:04:00    阅读次数:233
MapReduce 2.x 编程 系列二 Map阶段实现
现在想从日志中提取数据,日志文件如下:2014-05-10 13:36:40,140307000287,536dbacc4700aab274729cca,login 2014-05-10 13:37:46,140310000378,536dbae74700aab274729ccb,login 2014-05-10 13:39:20,140310000382,536dbb284700aab27472...
分类:其他好文   时间:2014-09-26 02:38:28    阅读次数:340
MapReduce 1.x 编程 系列三 Reduce阶段实现
Reduce代码就是做加和统计,package org.freebird.reducer; import java.io.IOException; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.mapreduce.Reducer.Context; import org.apache.hadoop.mapredu...
分类:其他好文   时间:2014-09-26 02:02:58    阅读次数:146
hadoop-mapreduce总结1
准备知识:1.在InputFormat<k,v>这个接口中,有两个方法,InputSplit[]getSplits();RecordReader<k,v>getRecordReader();2.mapreduce作业提交与初始化过程。作业提交:(1)命令行提交。。。。(2)获取作业ID,创建HDFS目录(你指定的存放结果的目录)上传文件到HD..
分类:其他好文   时间:2014-09-16 19:08:21    阅读次数:231
502条   上一页 1 ... 43 44 45 46 47 ... 51 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!