码迷,mamicode.com
首页 >  
搜索关键字:mapreduce topk算法    ( 4057个结果
Nikita Ivanov谈GridGain的Hadoop内存片内加速技术
GridGain最近在2014年的Spark峰会上发布了Hadoop内存片内加速技术,可以为Hadoop应用带来内存片内计算的相关收益。 该技术包括两个单元:和Hadoop HDFS兼容的内存片内文件系统,以及为内存片内处理而优化的MapReduce实现。这两个单元对基于磁盘的HDFS和传统的MapReduce进行了扩展,为大数据处理情况提供了更好的性能。...
分类:其他好文   时间:2014-10-16 17:15:42    阅读次数:235
Tachyon基本使用08-----Running Hadoop MapReduce on Tachyon
一、修改Hadoop配置文件1.修改core-site.xml文件添加如下属性,让MapReduce作业可以使用Tachyon文件系统作为输入和输出<property> <name>fs.tachyon.impl</name> <value>tachyon.hadoop.TFS</value> </property>2.配置hadoop-env.sh在hado..
分类:其他好文   时间:2014-10-15 16:36:41    阅读次数:175
大数据时代之hadoop(三):hadoop数据流(生命周期)
了解hadoop,首先就需要先了解hadoop的数据流,就像了解servlet的生命周期似的。hadoop是一个分布式存储(hdfs)和分布式计算框架(mapreduce),但是hadoop也有一个很重要的特性:hadoop会将mapreduce计算移动到存储有部分数据的各台机器上。...
分类:其他好文   时间:2014-10-15 12:01:40    阅读次数:199
MapReduce
现在不敢说懂了,纯给自己科普。wordcount1)将文件拆分成splits,由于测试用的文件较小,所以每个文件为一个split,并将文件按行分割形成对,如图所示。这一步由MapReduce框架自动完成,其中偏移量(即key值)包括了回车所占的字符数(Windows和Linux环境会不同)。2)将分...
分类:其他好文   时间:2014-10-15 02:17:49    阅读次数:200
写hive sql和shell脚本时遇到几个蛋疼的问题!
错误一: Hive的where中不能用别名,   错误二: hive的groupby中不能用自定义函数,否则报错(用嵌套select代替)   错误三: 执行:$ ./hive_game_operationstatis5.sh   报错信息如下: ./hive_game_operationstatis5.sh:line 11: [: missing `]' ./hive_ga...
分类:数据库   时间:2014-10-14 22:10:29    阅读次数:240
Tachyon基本使用01-----Tachyon简介
一、Tachyon介绍Tachyon是一个高容错的分布式文件系统,允许文件以内存的速度在集群框架中进行可靠的共享,就像Spark和MapReduce那样。通过利用信息继承,内存侵入,Tachyon获得了高性能。Tachyon工作集文件缓存在内存中,并且让不同的Jobs/Queries以及框架都能内存的速度来访..
分类:其他好文   时间:2014-10-14 21:33:59    阅读次数:638
在Maprecue中利用MultipleOutputs输出多个文件
用户在使用Mapreduce时默认以part-*命名,M...
分类:其他好文   时间:2014-10-14 14:50:08    阅读次数:241
《深入浅出pig系列之一》pig-0.12.0-cdh5.1.2的安装与运行
这里使用的版本是cdh发行的pig-0.12.0-cdh5.1.2 下载地址点这里 1.Pig简介:      Pig是yahoo捐献给apache的一个项目,它是SQL-like语言,是在MapReduce上构建的一种高级查询语言,把一些运算编译进MapReduce模型的Map和Reduce中,并且用户可以定义自己的功能。这是Yahoo开发的又一个克隆Google的项目:S...
分类:其他好文   时间:2014-10-13 21:20:27    阅读次数:253
Hadoop中SequenceFile的使用
本文章详细叙述了hadoop中SequenceFile的使用,包括普通的使用方法及在mapreduce中的使用...
分类:其他好文   时间:2014-10-13 16:11:19    阅读次数:267
在Hadoop监控页面如何查看Hive的完整SQL
如图,这里只能看到简单的一段SQL,几乎看不出具体在执行什么任务。 此时可以点开一个application,点击Tracking URL: ApplicationMaster 进入到MapReduce Job job_1409xxxx,Job页面 点击左侧的Configuration 这里有此Job对应的所有参数,在 右上角的搜索框中输入string, 其中key为 hive....
分类:数据库   时间:2014-10-13 13:40:59    阅读次数:220
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!