码迷,mamicode.com
首页 >  
搜索关键字:mapreduce partitioner    ( 4100个结果
c#扩展出MapReduce方法
MapReduce方法主体: 1 public static IDictionary MapReduce(this IList inputList, 2 Func> map, Func, TResult> reduce) 3 { 4 C...
分类:Windows程序   时间:2015-01-30 17:39:29    阅读次数:199
【转】用python写MapReduce函数——以WordCount为例
本例中直接用python写一个MapReduce实例:统计输入文件的单词的词频使用python写MapReduce的“诀窍”是利用Hadoop流的API,通过STDIN(标准输入)、STDOUT(标准输出)在Map函数和Reduce函数之间传递数据。我们唯一需要做的是利用Python的sys.std...
分类:编程语言   时间:2015-01-29 20:57:30    阅读次数:267
Hadoop(一):数据文件
从本质上来说,Hadoop就是提供了分布式存储(HDFS)与分布式计算(MapReduce)的服务。...
分类:其他好文   时间:2015-01-29 09:27:50    阅读次数:202
Hadoop阅读笔记(三)——深入MapReduce排序和单表连接
本篇主要介绍如何使用MapReduce执行数据排序,相对于传统排序,MapReduce面临哪些问题又有哪些优势,详细了解Map阶段和Reduce阶段如何衔接,Partition类如何使用;MapReduce如何进行单表连接等问题;通过打印程序执行过程信息,一目了然了解MapReduce执行的每一步。
分类:编程语言   时间:2015-01-28 23:48:56    阅读次数:355
Spark的python克隆
Introduction  DPark是豆瓣开发的基于Mesos的开源分布式计算框架,是spark的python版克隆,Davids的作品,Beandb作者。是豆瓣刚开源的集群计算框架,类似于MapReduce,但是比其更灵活,可以用Python非常方便地进行分布式计算,并且提供了更多的功能以便更好的进行迭代式计算。DPark的计算模型是基于两个中心思想的:对分布式数据集的并行计算以及一些有...
分类:编程语言   时间:2015-01-28 19:47:43    阅读次数:281
Google Dremel 原理 - 如何能3秒分析1PB
Dremel 是Google 的“交互式”数据分析系统。可以组建成规模上千的集群,处理PB级别的数据。MapReduce处理一个数据,需要分钟级的时间。作为MapReduce的发起人,Google开发了Dremel将处理时间缩短到秒级,作为MapReduce的有力补充。Dremel作为Google ...
分类:其他好文   时间:2015-01-27 21:35:45    阅读次数:290
谷歌Dremel即时数据分析解决方案
Hadoop已经成为大数据的代名词。短短几年间,Hadoop从一种边缘技术成为事实上的标准。而另一方面,MapReduce在谷歌已不再显赫。当企业瞩目MapReduce的时候,谷歌好像早已进入到了下一个时代。
分类:其他好文   时间:2015-01-27 21:31:48    阅读次数:374
大数据基础架构详解
简介:本文是对大数据领域的基础论文的阅读总结,相关论文包括GFS,MapReduce、BigTable、Chubby、SMAQ。大数据出现的原因: 大多数的技术突破来源于实际的产品需要,大数据最初诞生于谷歌的搜索引擎中。随着web2.0时代的发展,互联网上数据量呈献爆炸式的增长,为了满足信息搜...
分类:其他好文   时间:2015-01-27 20:07:31    阅读次数:150
基于hadoop的社交网络的分析
昨天终于hadoop的项目验收完成了,终于可以松一口气了,总体还是比较满意的。 首先说一下项目流程,用mapreduce对数据进行预处理,然后用mahout中的聚类算法(kmeans)对数据进行处理,最后用peoplerank对数据进行处理。 根据老师交给我们的数据,包括Google+和Twitter的部分社交网络数据。以下是两个数据下载的链接 http://snap.stanford.ed...
分类:其他好文   时间:2015-01-27 18:24:46    阅读次数:237
MongoDB基本用法(增删改高级查询、mapreduce)
TestCase.javaJava代码packagecom.wujintao.mongo;importjava.net.UnknownHostException;importjava.util.ArrayList;importjava.util.List;importjava.util.Set;im...
分类:数据库   时间:2015-01-27 18:05:34    阅读次数:299
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!