码迷,mamicode.com
首页 >  
搜索关键字:mapreduce partitioner    ( 4100个结果
hadoop提交job后job僵住了,一直是undefined状态
今天在用hive进行查询练习,因为采用了条件查询,hive默认会把查询转变成mapreduce的job去执行,结果发现job一直僵在那里不动,找了好久都没发现问题,看hadoop的mast节点日志,也没有问题,最后查看node节点的日志发现了“INFO org.apache.hadoop.ipc.....
分类:其他好文   时间:2014-10-09 02:04:37    阅读次数:813
Hadoop学习笔记(二)设置单节点集群
本文描述如何设置一个单一节点的 Hadoop 安装,以便您可以快速执行简单的操作,使用 Hadoop MapReduce 和 Hadoop 分布式文件系统 (HDFS)。...
分类:其他好文   时间:2014-10-07 19:00:13    阅读次数:235
CouchDB简介
类型:开源数据库,Apache项目存储格式:JSON查询语言:JavaScriptAPI :MapReduce、HTTP特点MVCC(Multiversion concurrency control)CouchDB一个支持多版本控制的系统,此类系统通常支持多个结点写, 而系统会检测到多个系统的写操作...
分类:数据库   时间:2014-10-07 17:03:33    阅读次数:247
Hadoop日志文件
初学者运行MapReduce作业时,经常会遇到各种错误,往往不知所云,一般直接将终端打印的错误贴到搜索引擎上查找,以借鉴前人的经验。对于hadoop而言,当遇到错误时,第一时间应是查看日志,日志里通产会有详细的错误原因提示。Hadoop MapReduce日志分为两部分,一部分是服务日志,一部分是作...
分类:其他好文   时间:2014-10-07 15:34:33    阅读次数:422
基于hadoop (map/reduce)的大规模分布式并行计算生产排程系统的设计
基于hadoop (map/reduce)的大规模分布式并行计算生产排程系统的设计        map/reduce是大数据处理的技术,它的思路是把大规模数据分成一个个小数据块,每个数据块由一个map任务来处理,处理的中间结果汇总到reduce,最后生成最终的处理结果,这个处理和汇总的过程是可以反复多次的,也就是map-reduce-map-reduce     基于map/redu...
分类:其他好文   时间:2014-10-06 13:19:00    阅读次数:127
MapReduce数据连接
对于不同文件里的数据,有时候有相应关系,须要进行连接(join),获得一个新的文件以便进行分析。比方有两个输入文件a.txt,b.txt,当中的数据格式分别例如以下1 a2 b3 c4 d1 good2 bad3 ok4 hello须要将其连接成一个新的例如以下的文件:a goodb badc ok...
分类:其他好文   时间:2014-10-04 23:27:37    阅读次数:251
MapReduce 编程 系列十二 用Hadoop Streaming技术集成newLISP脚本
本文环境和之前的Hadoop 1.x不同,是在Hadoop 2.x环境下测试。newLISP脚本,在stdin中读取数...
分类:其他好文   时间:2014-10-04 22:24:07    阅读次数:183
MapReduce 编程 系列十二 Reduce阶段内部细节和调节参数
Reduce计算分为若干阶段1. copy(或者叫shuffle)阶段和merge阶段并行之前Map产生的结果被存放在本地磁盘上,这时需要从reduce节点将数据从map节点复制过来。放得下进内存,比较大的则写到本地磁盘。同时,有两个线程对已经获得的内存中和磁盘上的数据进行merge操作。具体细节是:通过RPC调用询问task tracker已经完成的map task列表,shuffle(洗牌)是...
分类:其他好文   时间:2014-10-04 15:41:56    阅读次数:240
MapReduce 中的两表 join 实例(二)
packagecom.baidu.uilt; importjava.io.*; importorg.apache.hadoop.io.*; publicclassTextPairimplementsWritableComparable<TextPair>{ privateTextfirst; privateTextsecond; publicTextPair(){ set(newText(),newText()); } publicTextPair(Stringfirst,Strings..
分类:其他好文   时间:2014-10-04 03:32:06    阅读次数:303
MapReduce 编程 系列十一 Map阶段的调优
MapOutputBuffer对于每一个Map,都有一个内存buffer用来缓存中间结果,这不仅可以缓存,而且还可以用来排序,被称为MapOutputBuffer, 设置这个buffer大小的配置是io.sort.mb默认值是100MB.一般当buffer被使用到一定比例,就会将Map的中间结果往磁盘上写,这个比例的配置是:io.sort.spill.percent默认值是80%或者0.8.在内存...
分类:其他好文   时间:2014-10-03 23:54:35    阅读次数:273
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!