MapReduce方法主体: 1 public static IDictionary MapReduce(this IList inputList, 2 Func> map, Func, TResult> reduce) 3 { 4 C...
本例中直接用python写一个MapReduce实例:统计输入文件的单词的词频使用python写MapReduce的“诀窍”是利用Hadoop流的API,通过STDIN(标准输入)、STDOUT(标准输出)在Map函数和Reduce函数之间传递数据。我们唯一需要做的是利用Python的sys.std...
分类:
编程语言 时间:
2015-01-29 20:57:30
阅读次数:
267
从本质上来说,Hadoop就是提供了分布式存储(HDFS)与分布式计算(MapReduce)的服务。...
分类:
其他好文 时间:
2015-01-29 09:27:50
阅读次数:
202
本篇主要介绍如何使用MapReduce执行数据排序,相对于传统排序,MapReduce面临哪些问题又有哪些优势,详细了解Map阶段和Reduce阶段如何衔接,Partition类如何使用;MapReduce如何进行单表连接等问题;通过打印程序执行过程信息,一目了然了解MapReduce执行的每一步。
分类:
编程语言 时间:
2015-01-28 23:48:56
阅读次数:
355
Introduction
DPark是豆瓣开发的基于Mesos的开源分布式计算框架,是spark的python版克隆,Davids的作品,Beandb作者。是豆瓣刚开源的集群计算框架,类似于MapReduce,但是比其更灵活,可以用Python非常方便地进行分布式计算,并且提供了更多的功能以便更好的进行迭代式计算。DPark的计算模型是基于两个中心思想的:对分布式数据集的并行计算以及一些有...
分类:
编程语言 时间:
2015-01-28 19:47:43
阅读次数:
281
Dremel 是Google 的“交互式”数据分析系统。可以组建成规模上千的集群,处理PB级别的数据。MapReduce处理一个数据,需要分钟级的时间。作为MapReduce的发起人,Google开发了Dremel将处理时间缩短到秒级,作为MapReduce的有力补充。Dremel作为Google ...
分类:
其他好文 时间:
2015-01-27 21:35:45
阅读次数:
290
Hadoop已经成为大数据的代名词。短短几年间,Hadoop从一种边缘技术成为事实上的标准。而另一方面,MapReduce在谷歌已不再显赫。当企业瞩目MapReduce的时候,谷歌好像早已进入到了下一个时代。
分类:
其他好文 时间:
2015-01-27 21:31:48
阅读次数:
374
简介:本文是对大数据领域的基础论文的阅读总结,相关论文包括GFS,MapReduce、BigTable、Chubby、SMAQ。大数据出现的原因: 大多数的技术突破来源于实际的产品需要,大数据最初诞生于谷歌的搜索引擎中。随着web2.0时代的发展,互联网上数据量呈献爆炸式的增长,为了满足信息搜...
分类:
其他好文 时间:
2015-01-27 20:07:31
阅读次数:
150
昨天终于hadoop的项目验收完成了,终于可以松一口气了,总体还是比较满意的。
首先说一下项目流程,用mapreduce对数据进行预处理,然后用mahout中的聚类算法(kmeans)对数据进行处理,最后用peoplerank对数据进行处理。
根据老师交给我们的数据,包括Google+和Twitter的部分社交网络数据。以下是两个数据下载的链接
http://snap.stanford.ed...
分类:
其他好文 时间:
2015-01-27 18:24:46
阅读次数:
237
TestCase.javaJava代码packagecom.wujintao.mongo;importjava.net.UnknownHostException;importjava.util.ArrayList;importjava.util.List;importjava.util.Set;im...
分类:
数据库 时间:
2015-01-27 18:05:34
阅读次数:
299