了解hadoop,首先就需要先了解hadoop的数据流,就像了解servlet的生命周期似的。hadoop是一个分布式存储(hdfs)和分布式计算框架(mapreduce),但是hadoop也有一个很重要的特性:hadoop会将mapreduce计算移动到存储有部分数据的各台机器上。...
分类:
其他好文 时间:
2014-10-15 12:01:40
阅读次数:
199
现在不敢说懂了,纯给自己科普。wordcount1)将文件拆分成splits,由于测试用的文件较小,所以每个文件为一个split,并将文件按行分割形成对,如图所示。这一步由MapReduce框架自动完成,其中偏移量(即key值)包括了回车所占的字符数(Windows和Linux环境会不同)。2)将分...
分类:
其他好文 时间:
2014-10-15 02:17:49
阅读次数:
200
错误一:
Hive的where中不能用别名,
错误二:
hive的groupby中不能用自定义函数,否则报错(用嵌套select代替)
错误三:
执行:$ ./hive_game_operationstatis5.sh
报错信息如下:
./hive_game_operationstatis5.sh:line 11: [: missing `]'
./hive_ga...
分类:
数据库 时间:
2014-10-14 22:10:29
阅读次数:
240
一、Tachyon介绍Tachyon是一个高容错的分布式文件系统,允许文件以内存的速度在集群框架中进行可靠的共享,就像Spark和MapReduce那样。通过利用信息继承,内存侵入,Tachyon获得了高性能。Tachyon工作集文件缓存在内存中,并且让不同的Jobs/Queries以及框架都能内存的速度来访..
分类:
其他好文 时间:
2014-10-14 21:33:59
阅读次数:
638
用户在使用Mapreduce时默认以part-*命名,M...
分类:
其他好文 时间:
2014-10-14 14:50:08
阅读次数:
241
这里使用的版本是cdh发行的pig-0.12.0-cdh5.1.2 下载地址点这里
1.Pig简介:
Pig是yahoo捐献给apache的一个项目,它是SQL-like语言,是在MapReduce上构建的一种高级查询语言,把一些运算编译进MapReduce模型的Map和Reduce中,并且用户可以定义自己的功能。这是Yahoo开发的又一个克隆Google的项目:S...
分类:
其他好文 时间:
2014-10-13 21:20:27
阅读次数:
253
本文章详细叙述了hadoop中SequenceFile的使用,包括普通的使用方法及在mapreduce中的使用...
分类:
其他好文 时间:
2014-10-13 16:11:19
阅读次数:
267
Apache Spark的高性能一定程度上取决于它采用的异步并发模型(这里指server/driver端采用的模型),这与Hadoop 2.0(包括YARN和MapReduce)是一致的。Hadoop 2.0自己实现了类似Actor的异步并发模型,实现方式是epoll+状态机,而Apache Spa...
分类:
编程语言 时间:
2014-10-13 14:23:49
阅读次数:
258
如图,这里只能看到简单的一段SQL,几乎看不出具体在执行什么任务。
此时可以点开一个application,点击Tracking URL:
ApplicationMaster
进入到MapReduce Job job_1409xxxx,Job页面
点击左侧的Configuration
这里有此Job对应的所有参数,在 右上角的搜索框中输入string,
其中key为 hive....
分类:
数据库 时间:
2014-10-13 13:40:59
阅读次数:
220
一、概述MapReduce框架对处理结果的输出会根据key值进行默认的排序,这个默认排序可以满足一部分需求,但是也是十分有限的。在我们实际的需求当中,往往有要对reduce输出结果进行二次排序的需求。对于二次排序的实现,网络上已经有很多人分享过了,但是对二次排序的实现的原理以及整个MapReduce...
分类:
编程语言 时间:
2014-10-13 12:30:29
阅读次数:
350