码迷,mamicode.com
首页 >  
搜索关键字:mapreduce 编程模型    ( 4944个结果
Hadoop集群维护
HDFS小文件问题及解决方案:http://dongxicheng.org/mapreduce/hdfs-small-files-solution/Hadoop升级方案(一):Hadoop 1.0内部版本升级(初稿):http://dongxicheng.org/mapreduce-nextgen/...
分类:其他好文   时间:2014-05-10 02:08:24    阅读次数:327
Hadoop下面WordCount运行详解
单词计数是最简单也是最能体现MapReduce思想的程序之一,可以称为MapReduce版"Hello World",该程序的完整代码可以在Hadoop安装包的"src/examples"目录下找到。单词计数主要完成功能是:统计一系列文本文件中每个单词出现的次数,如下图所示。现在我们以"hadoop...
分类:其他好文   时间:2014-05-10 01:54:48    阅读次数:445
Hadoop MapReduce开发最佳实践(上篇)
Hadoop MapReduce开发最佳实践(上篇)本文是Hadoop最佳实践系列第二篇,上一篇为《Hadoop管理员的十个最佳实践》。MapRuduce开发对于大多数程序员都会觉得略显复杂,运行一个WordCount(Hadoop中hello word程序)不仅要熟悉MapRuduce模型,还要了...
分类:其他好文   时间:2014-05-08 21:45:46    阅读次数:640
Hadoop集群(第9期)_MapReduce初级案例 - 虾皮 - 博客园
Hadoop集群(第9期)_MapReduce初级案例 - 虾皮 - 博客园1、数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1....
分类:其他好文   时间:2014-05-08 20:38:16    阅读次数:669
Hadoop 组成
这里介绍一下hadoop的组成, hadoop主要由两部分组成,,一个是hdfs,另一个是mapreduce 这两个部分在hadoop 2.2.0中分别用start-dfs.sh和start-yarn.sh启动。mapreduce 在2.0版本中有了一个新名字yarn. dfs 主要用来启动 namenode 和 datanode, namenode既是是传说中的matser, datanod...
分类:其他好文   时间:2014-05-07 04:33:35    阅读次数:359
Hadoop MapReduce2.0(Yarn)
MapReduce2.0(Yarn) MapReduce2.0是在Hadoop0.23开始采用的,叫做MapReduce2.0或者MRv2或者Yarn。 MRv2的主要思想是把jobtracker的任务分为两个基本的功能,一个是资源管理,一个是任务监控,这两个任务分别用不同的进程来运行。这个想法使拥有一个全局的资源管理器(ResourceManager)和每个应用程序的应用...
分类:其他好文   时间:2014-05-07 04:05:06    阅读次数:272
Hive中join, outer join, semi join区别
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 最常用的就是多表关联查询,主要讲解下join、outer join和semi join的具体使用。 join是最简单的关联操作,两边关联只取交集。 outer join分为left outer join、rig...
分类:其他好文   时间:2014-05-06 15:01:38    阅读次数:269
使用hadoop multipleOutputs对输出结果进行不一样的组织
MapReduce job中,可以使用FileInputFormat和FileOutputFormat来对输入路径和输出路径来进行设置。在输出目录中,框架自己会自动对输出文件进行命名和组织,如:part-(m|r)-00000之类。但有时为了后续流程的方便,我们常需要对输出结果进行一定的分类和组织。...
分类:其他好文   时间:2014-05-04 10:22:15    阅读次数:341
MapReduce 实现数据join操作
前段时间有一个业务需求,要在外网商品(TOPB2C)信息中加入联营自营识别的字段。但存在的一个问题是,商品信息和自营联营标示数据是两份数据;商品信息较大,是存放在hbase中。他们之前唯一的关联是url。所以考虑用url做key将两者做join,将联营自营标识信息加入的商品信息中,最终生成我需要的数...
分类:其他好文   时间:2014-05-04 10:02:22    阅读次数:565
Hadoop初学指南(7)--MapReduce自定义计数器
本文主要介绍了MapReduce中的自定义计数器的相关内容。在上次的单词统计例子中,我们可以看到MapReduce在执行过程中会有很多的控制台输出信息,其中有一个很关键的内容:计数器。如下图:可以看到最上方的关键字:Counters,这就表示计数器。在这里,只有一个制表符缩进的表示..
分类:其他好文   时间:2014-05-03 14:56:19    阅读次数:336
4944条   上一页 1 ... 491 492 493 494 495 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!