其实MapReduce作业运行第三方配置文件的共享方法往小了说其实就是参数在MapReduce作业中的传递,往大了说其实就是DistributedCache的应用。在MapReduce中传递参数普遍用Configuration,Configuration是一个键值对,将所需的参数值表示成键值对(键值对为字符串类型),调用Conf..
分类:
其他好文 时间:
2014-12-24 06:32:52
阅读次数:
229
#!/usr/bin/env python import random # ‘abc..z‘ alphaStr = "".join(map(chr, range(97,123))) fp = open("word.txt", "w") maxIter = 100000 for i in range(maxIter): word = "" len =random.randint(1,5) fo...
分类:
编程语言 时间:
2014-12-23 22:45:42
阅读次数:
288
2、MapReduce与MySQL交互 MapReduce技术推出后,曾遭到关系数据库研究者的挑剔和批评,认为MapReduce不具备有类似于关系数据库中的结构化数据存储和处理能力。为此,Google和MapReduce社区进行了很多努力。一方面,他们设计了类似于关系数据中结构化数据表的技术(Go....
分类:
数据库 时间:
2014-12-23 22:27:47
阅读次数:
355
1、MapReduce理论简介1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。 在Hadoo.....
分类:
其他好文 时间:
2014-12-23 22:27:03
阅读次数:
151
1、数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1.1 实例描述 对数据文件中的数据进行去重。数据文件中的每行都是一个数据。.....
分类:
其他好文 时间:
2014-12-23 22:26:38
阅读次数:
169
本文不是技术收集贴,就是记录一下,因此没有收集所有的HBase表导入导出方式,只是记录一下自己用过的一种。数据表的导出:1 $ bin/hbase org.apache.hadoop.hbase.mapreduce.Driver export [ [ []]]需要注意的是,outputdir指的.....
分类:
其他好文 时间:
2014-12-23 22:23:15
阅读次数:
195
今天例行的任务报Premature EOF from inputStream的错误(具体log被刷屏刷掉了)。根据这个关键信息去网上搜了下,有说lzo压缩指定方式不对的MapReduce使用lzo压缩注意,也有说节点或者通信出问题,或者文...
分类:
其他好文 时间:
2014-12-23 12:36:50
阅读次数:
702
Hadoop2.x之后没有Eclipse插件工具,我们就不能在Eclipse上调试代码,我们要把写好的java代码的MapReduce打包成jar然后在Linux上运行,所以这种不方便我们调试代码,所以我们自己编译一个Eclipse插件,方便我们在我们本地上调试,经过hadoop1.x的发展,编译hadoop2.x版本的eclipse插件比之前简单多了。接下来我 们开始编译Hadoop-eclipse-plugin插件,并在Eclipse开发Hadoop...
一: Hive基本概念 1. Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapRe...
分类:
其他好文 时间:
2014-12-23 00:16:50
阅读次数:
224