开始聊mapreduce,mapreduce是hadoop的计算框架,我学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密。这个可能是我做技术研究的思路有关,我开始学习某一套技术总是想着这套技术到底能干什么,只有当我真正理解了这套....
分类:
Web程序 时间:
2014-09-22 20:46:13
阅读次数:
286
Map:-------分割Reduce:---合并====Batch,ESB: Splite:----分割 Aggert:---合并 Channel----管道BPM Join fork task==========================================都是基于...
分类:
其他好文 时间:
2014-09-21 12:37:40
阅读次数:
206
1.名片上的架构师 2.部门会议上的项目经理 3.baidu上找答案的程序员 4.精通SSH的javatar 5.精通OOP的phper 6.认为大数据就是很大的数据的开发者 7.认为MapReduce很高端的程序员 8.以为架构就是搭积木的程序员 9.忽视运维的程序员 10.不鸟我的程序员...
分类:
其他好文 时间:
2014-09-20 23:07:19
阅读次数:
250
mongoDB的MapReduce简介 分类: MongoDB2012-12-06 21:378676人阅读评论(2)收藏举报MongoDB MapReduceMapReduce是一种计算模型,简单的说就是将大批量的工作(数据)分解(MAP)执行,然后再将结果合并成最终结果(REDUCE)。这样.....
分类:
数据库 时间:
2014-09-19 17:32:45
阅读次数:
377
太久没动这里,目前人生处于一个新的开始。这次博客的内容很久前就想更新上来,但是一直没找到合适的时间点(哈哈,其实就是懒),主要内容集中在使用Mongodb时的一些隐蔽的MapReduce问题: 1、Reduce时的计数问题 2、Reduce时的提取数据问题 另外,补充一个小tips:mon...
分类:
数据库 时间:
2014-09-18 20:37:44
阅读次数:
315
HDFS作为Hadoop中 的一个分布式文件系统,而且是专门为它的MapReduce设计,所以HDFS除了必须满足自己作为分布式文件系统的高可靠性外,还必须为 MapReduce提供高效的读写性能,那么HDFS是如何做到这些的呢?首先,HDFS将每一个文件的数据进行分块存储,同时每一个数据块又保存有...
分类:
其他好文 时间:
2014-09-18 13:09:33
阅读次数:
309
1.前言 学习hadoop的童鞋,倒排索引这个算法还是挺重要的。这是以后展开工作的基础。首先,我们来认识下什么是倒排索引: 倒排索引简单地就是:根据单词,返回它在哪个文件中出现过,而且频率是多少的结果。这就像百度里的搜索,你输入一个关键字,那么百度引擎就迅速的在它的服务器里找到有该关键字...
分类:
其他好文 时间:
2014-09-17 11:41:02
阅读次数:
267
准备知识:1.在InputFormat<k,v>这个接口中,有两个方法,InputSplit[]getSplits();RecordReader<k,v>getRecordReader();2.mapreduce作业提交与初始化过程。作业提交:(1)命令行提交。。。。(2)获取作业ID,创建HDFS目录(你指定的存放结果的目录)上传文件到HD..
分类:
其他好文 时间:
2014-09-16 19:08:21
阅读次数:
231
hive在生产环境中由于用户数量和身份的不同,难免会对用户按组进行划分,根据不同组的优先级划分hadoop资源,hadoop fairscheduler支持按用户组划分资源池,每个group对应一个组pool,然后根据pool优先级划分mapreduce资源,在map-site.xml中添加以下配置即可实现按组划分:
mapred.jobtracker.taskScheduler...
分类:
其他好文 时间:
2014-09-16 17:29:10
阅读次数:
286