码迷,mamicode.com
首页 >  
搜索关键字:mapreduce topk算法    ( 4057个结果
hadoop 学习笔记:mapreduce框架详解(转 http://www.cnblogs.com/sharpxiajun/p/3151395.html)
开始聊mapreduce,mapreduce是hadoop的计算框架,我学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密。这个可能是我做技术研究的思路有关,我开始学习某一套技术总是想着这套技术到底能干什么,只有当我真正理解了这套....
分类:Web程序   时间:2014-09-22 20:46:13    阅读次数:286
MapReduce - 性能调优
MapReduce 性能调优...
分类:其他好文   时间:2014-09-22 15:54:53    阅读次数:266
MapReduce编程模型
Map:-------分割Reduce:---合并====Batch,ESB: Splite:----分割 Aggert:---合并 Channel----管道BPM Join fork task==========================================都是基于...
分类:其他好文   时间:2014-09-21 12:37:40    阅读次数:206
本座最不鸟的十种技术人员
1.名片上的架构师 2.部门会议上的项目经理 3.baidu上找答案的程序员 4.精通SSH的javatar 5.精通OOP的phper 6.认为大数据就是很大的数据的开发者 7.认为MapReduce很高端的程序员 8.以为架构就是搭积木的程序员 9.忽视运维的程序员 10.不鸟我的程序员...
分类:其他好文   时间:2014-09-20 23:07:19    阅读次数:250
mongodb mapreduce用法
mongoDB的MapReduce简介 分类: MongoDB2012-12-06 21:378676人阅读评论(2)收藏举报MongoDB MapReduceMapReduce是一种计算模型,简单的说就是将大批量的工作(数据)分解(MAP)执行,然后再将结果合并成最终结果(REDUCE)。这样.....
分类:数据库   时间:2014-09-19 17:32:45    阅读次数:377
在MongoDB的MapReduce上踩过的坑
太久没动这里,目前人生处于一个新的开始。这次博客的内容很久前就想更新上来,但是一直没找到合适的时间点(哈哈,其实就是懒),主要内容集中在使用Mongodb时的一些隐蔽的MapReduce问题: 1、Reduce时的计数问题 2、Reduce时的提取数据问题 另外,补充一个小tips:mon...
分类:数据库   时间:2014-09-18 20:37:44    阅读次数:315
HDFS副本存放读取
HDFS作为Hadoop中 的一个分布式文件系统,而且是专门为它的MapReduce设计,所以HDFS除了必须满足自己作为分布式文件系统的高可靠性外,还必须为 MapReduce提供高效的读写性能,那么HDFS是如何做到这些的呢?首先,HDFS将每一个文件的数据进行分块存储,同时每一个数据块又保存有...
分类:其他好文   时间:2014-09-18 13:09:33    阅读次数:309
倒排索引和MapReduce简介(未完待续)
1.前言 学习hadoop的童鞋,倒排索引这个算法还是挺重要的。这是以后展开工作的基础。首先,我们来认识下什么是倒排索引: 倒排索引简单地就是:根据单词,返回它在哪个文件中出现过,而且频率是多少的结果。这就像百度里的搜索,你输入一个关键字,那么百度引擎就迅速的在它的服务器里找到有该关键字...
分类:其他好文   时间:2014-09-17 11:41:02    阅读次数:267
hadoop-mapreduce总结1
准备知识:1.在InputFormat<k,v>这个接口中,有两个方法,InputSplit[]getSplits();RecordReader<k,v>getRecordReader();2.mapreduce作业提交与初始化过程。作业提交:(1)命令行提交。。。。(2)获取作业ID,创建HDFS目录(你指定的存放结果的目录)上传文件到HD..
分类:其他好文   时间:2014-09-16 19:08:21    阅读次数:231
Hadoop Job 按组分资源池执行的方式
hive在生产环境中由于用户数量和身份的不同,难免会对用户按组进行划分,根据不同组的优先级划分hadoop资源,hadoop fairscheduler支持按用户组划分资源池,每个group对应一个组pool,然后根据pool优先级划分mapreduce资源,在map-site.xml中添加以下配置即可实现按组划分:       mapred.jobtracker.taskScheduler...
分类:其他好文   时间:2014-09-16 17:29:10    阅读次数:286
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!