码迷,mamicode.com
首页 >  
搜索关键字:mapreduce partitioner    ( 4100个结果
Hadoop Streaming例子(python)
以前总是用java写一些MapReduce程序现举一个例子使用Python通过Hadoop Streaming来实现Mapreduce。 任务描述: HDFS上有两个目录/a和/b,里面数据均有3列,第一列都是id,第二列是各自的业务类型(这里假设/a对应a,/b对应b),第三列是一个jso...
分类:编程语言   时间:2014-11-23 13:07:40    阅读次数:270
Hadoop权威指南---第二章MaxTemperature例题源码
敲了一下hadoop第二章的例题,及泵啥...
分类:其他好文   时间:2014-11-23 09:20:33    阅读次数:115
Spark和RDD模型研究
1背景介绍现今分布式计算框架像MapReduce和Dryad都提供了高层次的原语,使用户不用操心任务分发和错误容忍,非常容易地编写出并行计算程序。然而这些框架都缺乏对分布式内存的抽象和支持,使其在某些应用场景下不够高效和强大。RDD(Resilient Distributed Datasets弹性分布式数据集)模型的产生动机主要来源于两种主流的应用场景:Ø  迭代式算法:迭代式机器学习、图算法,包...
分类:其他好文   时间:2014-11-22 16:08:17    阅读次数:392
JobTracker作业启动过程分析
在Hadoop中,启动作业运行的方式有很多,可以用命令行格式把打包好后的作业提交还可以,用Hadoop的插件进行应用开发,在这么多的方式中,都会必经过一个流程,作业会以JobInProgress的形式提交到JobTracker中。什么叫JobTracker呢,也许有些人了解Hadoop只知道他的MapReduce计算模型,那个过程只是其中的Task执行的一个具体过程,比较微观上的流程,而JobTr...
分类:其他好文   时间:2014-11-21 23:24:09    阅读次数:302
Hive中跑MapReduce Job出现OOM问题分析及解决
一、引子今天在跑一段很复杂而且涉及数据量10年的N个表join的长SQL时,发生了OOM的异常。由于一个map通常配置只有64MB或者128MB,则在Map阶段出现OOM的情况很少见。所以一般发生在reduce阶段。但是今天这个异常详细的看后,会发现既不是map阶段,也不是reduce阶段,发现不是执行过程,而是driver提交job阶段就OOM了。Hive中XMLEncoder序列化Mapred...
分类:其他好文   时间:2014-11-21 20:33:32    阅读次数:234
定制版Sqoop-- VDataHub介绍
1.1 产品概述 VDataHub基于Apache Sqoop,最初定位是用于将关系数据库中的数据导入Hadoop/Hive/HBase。Sqoop基于Hadoop的MapReduce来完成数据导入导出工作,提供了很好的容错性。刚开始项目组也仅仅直接采用社区版本来完成数据导入导出。但在使用过程中,我们发现有很多地方是Sqoop现有版本没法支持的,如果不解决,是不能用于现有数据平台建设中的。 基...
分类:其他好文   时间:2014-11-21 18:50:54    阅读次数:317
Hbase0.98.4中部署用户自定义的Observer Coprocessor
Hbase自0.92之后开始支持Coprocessor(协处理器),旨在使用户可以将自己的代码放在regionserver上来运行,即将计算程序移动到数据所在的位置进行运算。这一点与MapReduce的思想一致。Hbase的Coprocess分为observer和endpoint两大类。简单说,observer相当于关系型数据库中的触..
分类:其他好文   时间:2014-11-21 16:32:34    阅读次数:251
MapReduce程序中的万能输入FileInputFormat.addInputPaths
写MR过程中经常会遇到多个源路径的输入,我们可以在MR程序主函数中通过FileInputFormat.addInputPaths(job,args[0])方法来实现, args[0]可以是folder1或者folder1,folder2只要以逗号分隔就可以了。 这样在执行MR的时候,输入会将多个源路径全部多为map输入进行执行。 另外一种实现单输入的方法(只支持一...
分类:其他好文   时间:2014-11-21 10:49:44    阅读次数:269
【转】大数据哪里来
转自:http://www.douban.com/note/309472506/海量数据(又称大数据)已经成为各大互联网企业面临的最大问题,如何处理海量数据,提供更好的解决方案,是目前相当热门的一个话题。类似MapReduce、 Hadoop等架构的普遍推广,大家都在构建自己的大数据处理,大数据分析...
分类:其他好文   时间:2014-11-20 18:35:59    阅读次数:205
java的12,24时制的SimpleDateFormat设定
24小时制: new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); 2014-11-20 16:13:41 12小时制: new SimpleDateFormat("yyyy-MM-dd hh:mm:ss"); 2014-11-20 04:13:41...
分类:编程语言   时间:2014-11-20 17:05:06    阅读次数:165
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!