通过上一篇文章中,认识了MongoDB中四个聚合操作,提供基本功能的count、distinct和group,还有可以提供强大功能的mapReduce。在MongoDB的2.2版本以后,聚合框架中多了一个新的成员,聚合管道,数据进入管道后就会经过一级级的处理,直到输出。对于数据量不是特别大,逻辑也不...
分类:
数据库 时间:
2014-12-04 23:12:35
阅读次数:
466
1 Hadoop集群系列集锦http://www.cnblogs.com/xia520pi/archive/2012/04/08/2437875.html2 Hadoop和MapReduce详解http://www.cnblogs.com/chinacloud/category/273179.htm...
分类:
其他好文 时间:
2014-12-04 21:15:19
阅读次数:
181
众所周知,目前大数据时代数据分析处理最常提到的是两个框架,一是Hadoop,另一个无疑便是Spark,Spark基于mapreduce算法实现的分布式计算,虽然拥有着Hadoop的优点,但是关于这个架构网上的解释并不全面,此次王家林老师带我们从技术的角度去探索一下Spark。第二代大数据技术Sp.....
分类:
其他好文 时间:
2014-12-04 21:12:26
阅读次数:
201
来自:http://www.codesky.net/article/201206/171862.htmlmahout的taste框架是协同过滤算法的实现。它支持DataModel,如文件、数据库、NoSQL存储等,也支持Hadoop的MapReduce。这里主要分析的基于MR的实现。基于MR的CF实...
分类:
其他好文 时间:
2014-12-04 19:41:22
阅读次数:
179
分片:1. 在job.submit() 提交job之后 会调用submitter.submitJobInternal(Job.this, cluster);2. 在submitJobInternal()函数中 会给job创建分片int maps = writeSplits(job, submitJo...
分类:
其他好文 时间:
2014-12-04 19:38:42
阅读次数:
161
HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。
HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行MapReduce来处理...
分类:
数据库 时间:
2014-12-04 12:21:39
阅读次数:
236
根据MongoDB的文档描述,在MongoDB的聚合操作中,有以下五个聚合命令。其中,count、distinct和group会提供很基本的功能,至于其他的高级聚合功能(sum、average、max、min),就需要通过mapReduce来实现了。在MongoDB2.2版本以后,引入了新的聚合框架...
分类:
数据库 时间:
2014-12-03 23:02:22
阅读次数:
429
简单解释 MapReduce 算法一个有趣的例子你想数出一摞牌中有多少张黑桃。直观方式是一张一张检查并且数出有多少张是黑桃?MapReduce方法则是:给在座的所有玩家中分配这摞牌让每个玩家数自己手中的牌有几张是黑桃,然后把这个数目汇报给你你把所有玩家告诉你的数字加起来,得到最后的结论拆分MapRe...
分类:
其他好文 时间:
2014-12-03 14:06:22
阅读次数:
218
MapReduce中Top算法;
利用Hadoop从100w数据中找到最大值问题...
分类:
编程语言 时间:
2014-12-03 00:34:21
阅读次数:
228
Hadoop读书笔记(十二)MapReduce自定义排序...
分类:
编程语言 时间:
2014-12-03 00:32:03
阅读次数:
228