码迷,mamicode.com
首页 >  
搜索关键字:mapreduce topk算法    ( 4057个结果
hadoop基础
1 定义hadoop是一个分布式系统架构。2 基本模块HDFS为海量数据提供了存储。Map/Reduce为海量数据提供了计算。3 子项目Hadoop Common: 在0.20及以前的版本中,包含HDFS、MapReduce和其他项目公共内容,从0.21开始HDFS和MapReduce被分离为独立的...
分类:其他好文   时间:2014-08-07 15:40:30    阅读次数:239
【系列】Matei Zaharia(马铁)博士论文-2 引言
由于单台机器的计算能力和I/O能力已经无法满足不断增长的数据处理需求,越来越多的组织需要将应用扩展到更大规模的集群上。但在集群环境中,可编程性方面将遇到以下几个挑战: 并行编程问题;为了将应用并行化,需要并行编程模型的支撑。 容错和慢节点问题;当集群规模相当大时,这个问题也是非常严重的。 多用户共享集群要求能具备弹性计算的能力,此外还要考虑干扰问题。 结果就是出现了很多编程模型,首先是MapReduce使数据批处理变得简单通用同时能处理容错。但很难处理其它类型的负载,于是就出现了各种各样专用的编程模型: ...
分类:其他好文   时间:2014-08-06 19:28:12    阅读次数:285
使用MongoVUE对MongoDB 进行MapReduce操作步骤
Step 1 Open MongoVUE and connect to the server that contains the collection “cities”   Step 2 Right-click on “cities” collection under “Database Explorer”, and select “MapReduce”. This will laun...
分类:数据库   时间:2014-08-06 19:07:42    阅读次数:352
[Spring Data MongoDB]学习笔记--MapReduce
mongodb的MapReduce主要包含两个方法:map和reduce。举个例子,假设现在有下面3条记录{ "_id" : ObjectId("4e5ff893c0277826074ec533"), "x" : [ "a", "b" ] }{ "_id" : ObjectId("4e5ff893c...
分类:数据库   时间:2014-08-06 18:50:27    阅读次数:516
mahout推荐15-在hadoop上运行MapReduce
详情可以参考《Mahout实战》的第六章代码:package mahout.wiki;import java.io.IOException;import java.util.ArrayList;import java.util.Collections;import java.util.Iterato...
分类:其他好文   时间:2014-08-06 18:37:01    阅读次数:315
【转载】8天学通MongoDB——第三天 细说高级操作
今天跟大家分享一下mongodb中比较好玩的知识,主要包括:聚合,游标。一: 聚合 常见的聚合操作跟sql server一样,有:count,distinct,group,mapReduce。 count count是最简单,最容易,也是最常用的聚合工具,它的使用跟我们C#里面的count...
分类:数据库   时间:2014-08-06 11:43:21    阅读次数:257
使用eclipse运行mapreduce程序
今天使用http://www.cnblogs.com/xia520pi/archive/2012/05/16/2504205.html上的方式搭建一个基于Eclipse的mapreduce开发环境,在运行WordCount例子时出现错误,经过检查后才发现,装了hadoop2.0插件的Eclips.....
分类:系统相关   时间:2014-08-05 18:12:39    阅读次数:229
MapReduce源码分析之MapTask分析(二)
MapReduce源码分析之MapTask详解的后半段文章。在分析过程中我们知道了MapTask是如何使用循环缓存区管理数据,知道了数据在缓存不下是如何做spill处理的,spill输出的数据格式,combiner如何处理,如何将多一个文件merge为一个等等。也希望通过阅读这部分源码能学习到部分设计思路,能在未来的设计中提供多一种思路。...
分类:其他好文   时间:2014-08-05 00:47:18    阅读次数:484
222
yarn.resourcemanager.hostname hadoop100 yarn.nodemanager.aux-services mapreduce_shuffle yarn.resourcemanager.hostname hadoop100 yarn.nodemanage...
分类:其他好文   时间:2014-08-04 13:58:07    阅读次数:202
HBase MapReduce 使用
项目中需要用MapReduce来读取或者写Hbase,这样可以节省大量开发时间。Hbase本身的jar包里就有这样的API , 以下是我从官网上找的一些资料,和大家分享一下。原文地址:http://hbase.apache.org/book/mapreduce.example.html总体说明一下:...
分类:其他好文   时间:2014-08-04 13:39:07    阅读次数:211
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!