搜索关键字：mapreduce topk算法，搜索到4057个结果！码迷,mamicode.com！

yarn与第一代mapreduce比较

jobtracker变成了ResourceManager和ApplicationMaster; tasktraker变成了nodeManager applicationMaster是一个可变更的部分，用户可以对不同的编程模型些自己的applicationMaster...

分类：其他好文时间：2014-10-19 23:18:52 阅读次数：196

换个角度理解云计算之MapReduce(二)

接上篇3.Combiner操作前面讲完Map操作，总结一下就是：一个大文件，分成split1~5，对应于Map1~5，每一个Map处理一个split，每一个split的每一行，会用每一个Map的map方法去处理，经过上面操作，最终输出了5个中间结果。对于这5个中间结果的每一个来说，都有很多行，每一行...

分类：其他好文时间：2014-10-19 18:28:49 阅读次数：186

Mapreduce运行过程分析(基于Hadoop2.4)——(三)

4.4 Reduce类4.4.1 Reduce介绍整完了Map，接下来就是Reduce了。YarnChild.main()—>ReduceTask.run()。ReduceTask.run方法開始和MapTask类似，包含initialize()初始化，依据情况看是否调用runJobCleanupT...

分类：其他好文时间：2014-10-19 12:47:51 阅读次数：224

换个角度理解云计算之MapReduce

上一篇简单讲了一下HDFS，简单来说就是一个叫做“NameNode”的大哥，带着一群叫做“DataNode”的小弟，完成了一坨坨数据的存储，其中大哥负责保存数据的目录，小弟们负责数据的真正存储，而大哥和小弟其实就是一台台的电脑，他们之间通过交换机，互相联系到了一起。其实这位大哥和这群小弟不仅...

分类：其他好文时间：2014-10-19 11:34:51 阅读次数：155

Hadoop 简介

前言本文大致介绍下Hadoop的一些背景知识，为后面深入学习打下铺垫。什么是Hadoop Hadoop是一个开源分布式计算平台，它以HDFS文件系统和MapReduce计算架构为核心。前者能够让用户使用一些廉价的硬件搭建出分布式系统，后者则能够让用户在不需要过多了解底层架构细节的情况下，开...

分类：其他好文时间：2014-10-18 18:09:35 阅读次数：231

hadoop常见错误

hadoop常见错误集锦： 1.DataXceiver error processing WRITE_BLOCK operation ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: 192-168-11-58:50010:DataXceiver error processing WRITE_BLOCK operation sr...

分类：其他好文时间：2014-10-17 15:39:14 阅读次数：247

使用hadoop实现关联商品统计

根据超市的销售清单，采用hadoop中的mapreduce计算商品之间的关联程度（即统计同时买A商品和B商品的次数）...

分类：其他好文时间：2014-10-17 15:38:03 阅读次数：213

【甘道夫】官网MapReduce实例代码详细批注

引言 1.本文不描述MapReduce入门知识，这类知识网上很多，请自行查阅 2.本文的实例代码来自官网 http://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html 最后的WordCount v2.0，该...

分类：其他好文时间：2014-10-16 20:49:43 阅读次数：203

对于HBase的MapReduce性能提升方案之BulkLoad

我们知道，在第一次海量数据批量入库时，我们会选择使用BulkLoad的方式。简介一下BulkLoad原理方式:(1)通过MapReduce的方式，在Map或者Reduce端将输出格式化为HBase的底层存储文件HFile。(2)调用BulkLoad将第一个Job生成的HFile导入到对应的HBase表中。 ps：请注意（1）HFile方式是所有的加载方案里面是最快的，前提是：数据必须第一个导...

分类：其他好文时间：2014-10-16 20:16:53 阅读次数：283

Hadoop日志分析系统启动脚本

Hadoop日志分析系统启动脚本 #!/bin/bash #Flume日志数据的根目录 root_path=/flume #Mapreduce处理后的数据目录 process_path=/process #hive分区时间 partition=`date "+%Y-%m-%d"` #获取前一小时的时间:/YYYY-MM-DD/HH file_path=`date -d "1 hour ...

分类：其他好文时间：2014-10-16 19:41:13 阅读次数：202

共4057条上一页 1 ... 363 364 365 366 367 ... 406 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)