码迷,mamicode.com
首页 >  
搜索关键字:mapreduce partitioner    ( 4100个结果
Intellij IDEA下远程调试hadoop
IDEA中远程调试hadoop...
分类:其他好文   时间:2014-12-24 18:17:16    阅读次数:231
MapReduce作业运行第三方配置文件的共享方法
其实MapReduce作业运行第三方配置文件的共享方法往小了说其实就是参数在MapReduce作业中的传递,往大了说其实就是DistributedCache的应用。在MapReduce中传递参数普遍用Configuration,Configuration是一个键值对,将所需的参数值表示成键值对(键值对为字符串类型),调用Conf..
分类:其他好文   时间:2014-12-24 06:32:52    阅读次数:229
Python 的mapreduce 单词统计(转载)
#!/usr/bin/env python import random # ‘abc..z‘ alphaStr = "".join(map(chr, range(97,123))) fp = open("word.txt", "w") maxIter = 100000 for i in range(maxIter): word = "" len =random.randint(1,5) fo...
分类:编程语言   时间:2014-12-23 22:45:42    阅读次数:288
Hadoop集群(第10期)_MapReduce与MySQL交互
2、MapReduce与MySQL交互 MapReduce技术推出后,曾遭到关系数据库研究者的挑剔和批评,认为MapReduce不具备有类似于关系数据库中的结构化数据存储和处理能力。为此,Google和MapReduce社区进行了很多努力。一方面,他们设计了类似于关系数据中结构化数据表的技术(Go....
分类:数据库   时间:2014-12-23 22:27:47    阅读次数:355
Hadoop集群(第6期)_WordCount运行详解
1、MapReduce理论简介1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。 在Hadoo.....
分类:其他好文   时间:2014-12-23 22:27:03    阅读次数:151
Hadoop集群(第9期)_MapReduce初级案例
1、数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1.1 实例描述 对数据文件中的数据进行去重。数据文件中的每行都是一个数据。.....
分类:其他好文   时间:2014-12-23 22:26:38    阅读次数:169
HBase表数据导出和导入
本文不是技术收集贴,就是记录一下,因此没有收集所有的HBase表导入导出方式,只是记录一下自己用过的一种。数据表的导出:1 $ bin/hbase org.apache.hadoop.hbase.mapreduce.Driver export [ [ []]]需要注意的是,outputdir指的.....
分类:其他好文   时间:2014-12-23 22:23:15    阅读次数:195
Premature EOF from inputStream错误的不同原因
今天例行的任务报Premature EOF from inputStream的错误(具体log被刷屏刷掉了)。根据这个关键信息去网上搜了下,有说lzo压缩指定方式不对的MapReduce使用lzo压缩注意,也有说节点或者通信出问题,或者文...
分类:其他好文   时间:2014-12-23 12:36:50    阅读次数:702
windows编译hadoop 2.x Hadoop-eclipse-plugin插件
Hadoop2.x之后没有Eclipse插件工具,我们就不能在Eclipse上调试代码,我们要把写好的java代码的MapReduce打包成jar然后在Linux上运行,所以这种不方便我们调试代码,所以我们自己编译一个Eclipse插件,方便我们在我们本地上调试,经过hadoop1.x的发展,编译hadoop2.x版本的eclipse插件比之前简单多了。接下来我 们开始编译Hadoop-eclipse-plugin插件,并在Eclipse开发Hadoop...
分类:Windows程序   时间:2014-12-23 10:37:34    阅读次数:312
2. Hive介绍
一: Hive基本概念 1. Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapRe...
分类:其他好文   时间:2014-12-23 00:16:50    阅读次数:224
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!