搜索关键字：mapreduce partitioner，搜索到4100个结果！码迷,mamicode.com！

大数据时代之hadoop(三)：hadoop数据流（生命周期）

了解hadoop，首先就需要先了解hadoop的数据流，就像了解servlet的生命周期似的。hadoop是一个分布式存储（hdfs）和分布式计算框架（mapreduce），但是hadoop也有一个很重要的特性：hadoop会将mapreduce计算移动到存储有部分数据的各台机器上。...

分类：其他好文时间：2014-10-15 12:01:40 阅读次数：199

MapReduce

现在不敢说懂了，纯给自己科普。wordcount1）将文件拆分成splits，由于测试用的文件较小，所以每个文件为一个split，并将文件按行分割形成对，如图所示。这一步由MapReduce框架自动完成，其中偏移量（即key值）包括了回车所占的字符数（Windows和Linux环境会不同）。2）将分...

分类：其他好文时间：2014-10-15 02:17:49 阅读次数：200

写hive sql和shell脚本时遇到几个蛋疼的问题！

错误一： Hive的where中不能用别名，错误二： hive的groupby中不能用自定义函数，否则报错（用嵌套select代替）错误三：执行：$ ./hive_game_operationstatis5.sh 报错信息如下： ./hive_game_operationstatis5.sh:line 11: [: missing `]' ./hive_ga...

分类：数据库时间：2014-10-14 22:10:29 阅读次数：240

Tachyon基本使用01-----Tachyon简介

一、Tachyon介绍Tachyon是一个高容错的分布式文件系统，允许文件以内存的速度在集群框架中进行可靠的共享，就像Spark和MapReduce那样。通过利用信息继承，内存侵入，Tachyon获得了高性能。Tachyon工作集文件缓存在内存中，并且让不同的Jobs/Queries以及框架都能内存的速度来访..

分类：其他好文时间：2014-10-14 21:33:59 阅读次数：638

在Maprecue中利用MultipleOutputs输出多个文件

用户在使用Mapreduce时默认以part-＊命名，M...

分类：其他好文时间：2014-10-14 14:50:08 阅读次数：241

《深入浅出pig系列之一》pig-0.12.0-cdh5.1.2的安装与运行

这里使用的版本是cdh发行的pig-0.12.0-cdh5.1.2 下载地址点这里 1.Pig简介： Pig是yahoo捐献给apache的一个项目，它是SQL-like语言，是在MapReduce上构建的一种高级查询语言，把一些运算编译进MapReduce模型的Map和Reduce中，并且用户可以定义自己的功能。这是Yahoo开发的又一个克隆Google的项目:S...

分类：其他好文时间：2014-10-13 21:20:27 阅读次数：253

Hadoop中SequenceFile的使用

本文章详细叙述了hadoop中SequenceFile的使用，包括普通的使用方法及在mapreduce中的使用...

分类：其他好文时间：2014-10-13 16:11:19 阅读次数：267

Apache Spark探秘：多进程模型还是多线程模型？（转）

Apache Spark的高性能一定程度上取决于它采用的异步并发模型（这里指server/driver端采用的模型），这与Hadoop 2.0（包括YARN和MapReduce）是一致的。Hadoop 2.0自己实现了类似Actor的异步并发模型，实现方式是epoll+状态机，而Apache Spa...

分类：编程语言时间：2014-10-13 14:23:49 阅读次数：258

在Hadoop监控页面如何查看Hive的完整SQL

如图，这里只能看到简单的一段SQL，几乎看不出具体在执行什么任务。此时可以点开一个application，点击Tracking URL: ApplicationMaster 进入到MapReduce Job job_1409xxxx，Job页面点击左侧的Configuration 这里有此Job对应的所有参数，在右上角的搜索框中输入string, 其中key为 hive....

分类：数据库时间：2014-10-13 13:40:59 阅读次数：220

(转)MapReduce二次排序

一、概述MapReduce框架对处理结果的输出会根据key值进行默认的排序，这个默认排序可以满足一部分需求，但是也是十分有限的。在我们实际的需求当中，往往有要对reduce输出结果进行二次排序的需求。对于二次排序的实现，网络上已经有很多人分享过了，但是对二次排序的实现的原理以及整个MapReduce...

分类：编程语言时间：2014-10-13 12:30:29 阅读次数：350

共4100条上一页 1 ... 368 369 370 371 372 ... 410 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)