GridGain最近在2014年的Spark峰会上发布了Hadoop内存片内加速技术,可以为Hadoop应用带来内存片内计算的相关收益。
该技术包括两个单元:和Hadoop HDFS兼容的内存片内文件系统,以及为内存片内处理而优化的MapReduce实现。这两个单元对基于磁盘的HDFS和传统的MapReduce进行了扩展,为大数据处理情况提供了更好的性能。...
分类:
其他好文 时间:
2014-10-16 17:15:42
阅读次数:
235
一、修改Hadoop配置文件1.修改core-site.xml文件添加如下属性,让MapReduce作业可以使用Tachyon文件系统作为输入和输出<property>
<name>fs.tachyon.impl</name>
<value>tachyon.hadoop.TFS</value>
</property>2.配置hadoop-env.sh在hado..
分类:
其他好文 时间:
2014-10-15 16:36:41
阅读次数:
175
了解hadoop,首先就需要先了解hadoop的数据流,就像了解servlet的生命周期似的。hadoop是一个分布式存储(hdfs)和分布式计算框架(mapreduce),但是hadoop也有一个很重要的特性:hadoop会将mapreduce计算移动到存储有部分数据的各台机器上。...
分类:
其他好文 时间:
2014-10-15 12:01:40
阅读次数:
199
现在不敢说懂了,纯给自己科普。wordcount1)将文件拆分成splits,由于测试用的文件较小,所以每个文件为一个split,并将文件按行分割形成对,如图所示。这一步由MapReduce框架自动完成,其中偏移量(即key值)包括了回车所占的字符数(Windows和Linux环境会不同)。2)将分...
分类:
其他好文 时间:
2014-10-15 02:17:49
阅读次数:
200
错误一:
Hive的where中不能用别名,
错误二:
hive的groupby中不能用自定义函数,否则报错(用嵌套select代替)
错误三:
执行:$ ./hive_game_operationstatis5.sh
报错信息如下:
./hive_game_operationstatis5.sh:line 11: [: missing `]'
./hive_ga...
分类:
数据库 时间:
2014-10-14 22:10:29
阅读次数:
240
一、Tachyon介绍Tachyon是一个高容错的分布式文件系统,允许文件以内存的速度在集群框架中进行可靠的共享,就像Spark和MapReduce那样。通过利用信息继承,内存侵入,Tachyon获得了高性能。Tachyon工作集文件缓存在内存中,并且让不同的Jobs/Queries以及框架都能内存的速度来访..
分类:
其他好文 时间:
2014-10-14 21:33:59
阅读次数:
638
用户在使用Mapreduce时默认以part-*命名,M...
分类:
其他好文 时间:
2014-10-14 14:50:08
阅读次数:
241
这里使用的版本是cdh发行的pig-0.12.0-cdh5.1.2 下载地址点这里
1.Pig简介:
Pig是yahoo捐献给apache的一个项目,它是SQL-like语言,是在MapReduce上构建的一种高级查询语言,把一些运算编译进MapReduce模型的Map和Reduce中,并且用户可以定义自己的功能。这是Yahoo开发的又一个克隆Google的项目:S...
分类:
其他好文 时间:
2014-10-13 21:20:27
阅读次数:
253
本文章详细叙述了hadoop中SequenceFile的使用,包括普通的使用方法及在mapreduce中的使用...
分类:
其他好文 时间:
2014-10-13 16:11:19
阅读次数:
267
如图,这里只能看到简单的一段SQL,几乎看不出具体在执行什么任务。
此时可以点开一个application,点击Tracking URL:
ApplicationMaster
进入到MapReduce Job job_1409xxxx,Job页面
点击左侧的Configuration
这里有此Job对应的所有参数,在 右上角的搜索框中输入string,
其中key为 hive....
分类:
数据库 时间:
2014-10-13 13:40:59
阅读次数:
220