码迷,mamicode.com
首页 >  
搜索关键字:mapreduce topk算法    ( 4057个结果
yarn与第一代mapreduce比较
jobtracker变成了ResourceManager和ApplicationMaster; tasktraker变成了nodeManager applicationMaster是一个可变更的部分,用户可以对不同的编程模型些自己的applicationMaster...
分类:其他好文   时间:2014-10-19 23:18:52    阅读次数:196
换个角度理解云计算之MapReduce(二)
接上篇3.Combiner操作前面讲完Map操作,总结一下就是:一个大文件,分成split1~5,对应于Map1~5,每一个Map处理一个split,每一个split的每一行,会用每一个Map的map方法去处理,经过上面操作,最终输出了5个中间结果。对于这5个中间结果的每一个来说,都有很多行,每一行...
分类:其他好文   时间:2014-10-19 18:28:49    阅读次数:186
Mapreduce运行过程分析(基于Hadoop2.4)——(三)
4.4 Reduce类4.4.1 Reduce介绍整完了Map,接下来就是Reduce了。YarnChild.main()—>ReduceTask.run()。ReduceTask.run方法開始和MapTask类似,包含initialize()初始化,依据情况看是否调用runJobCleanupT...
分类:其他好文   时间:2014-10-19 12:47:51    阅读次数:224
换个角度理解云计算之MapReduce
上一篇简单讲了一下HDFS,简单来说就是一个叫做“NameNode”的大哥,带着一群叫做“DataNode”的小弟,完成了一坨坨数据的存储,其中大哥负责保存数据的目录,小弟们负责数据的真正存储,而大哥和小弟其实就是一台台的电脑,他们之间通过交换机,互相联系到了一起。 其实这位大哥和这群小弟不仅...
分类:其他好文   时间:2014-10-19 11:34:51    阅读次数:155
Hadoop 简介
前言 本文大致介绍下Hadoop的一些背景知识,为后面深入学习打下铺垫。什么是Hadoop Hadoop是一个开源分布式计算平台,它以HDFS文件系统和MapReduce计算架构为核心。 前者能够让用户使用一些廉价的硬件搭建出分布式系统,后者则能够让用户在不需要过多了解底层架构细节的情况下,开...
分类:其他好文   时间:2014-10-18 18:09:35    阅读次数:231
hadoop常见错误
hadoop常见错误集锦: 1.DataXceiver error processing WRITE_BLOCK operation ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: 192-168-11-58:50010:DataXceiver error processing WRITE_BLOCK operation sr...
分类:其他好文   时间:2014-10-17 15:39:14    阅读次数:247
使用hadoop实现关联商品统计
根据超市的销售清单,采用hadoop中的mapreduce计算商品之间的关联程度(即统计同时买A商品和B商品的次数)...
分类:其他好文   时间:2014-10-17 15:38:03    阅读次数:213
【甘道夫】官网MapReduce实例代码详细批注
引言 1.本文不描述MapReduce入门知识,这类知识网上很多,请自行查阅 2.本文的实例代码来自官网 http://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html 最后的WordCount v2.0,该...
分类:其他好文   时间:2014-10-16 20:49:43    阅读次数:203
对于HBase的MapReduce性能提升方案之BulkLoad
我们知道,在第一次海量数据批量入库时,我们会选择使用BulkLoad的方式。 简介一下BulkLoad原理方式:(1)通过MapReduce的方式,在Map或者Reduce端将输出格式化为HBase的底层存储文件HFile。(2)调用BulkLoad将第一个Job生成的HFile导入到对应的HBase表中。 ps:请注意(1)HFile方式是所有的加载方案里面是最快的,前提是:数据必须第一个导...
分类:其他好文   时间:2014-10-16 20:16:53    阅读次数:283
Hadoop日志分析系统启动脚本
Hadoop日志分析系统启动脚本 #!/bin/bash #Flume日志数据的根目录 root_path=/flume #Mapreduce处理后的数据目录 process_path=/process #hive分区时间 partition=`date "+%Y-%m-%d"` #获取前一小时的时间:/YYYY-MM-DD/HH file_path=`date -d "1 hour ...
分类:其他好文   时间:2014-10-16 19:41:13    阅读次数:202
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!