搜索关键字：mapreduce partitioner，搜索到4100个结果！码迷,mamicode.com！

Hadoop-2.2.0中文文档—— MapReduce 下一代--容量调度器

目的这份文档描述 CapacityScheduler,一个为Hadoop能允许多用户安全地共享一个大集群的插件式调度器，如他们的应用能适时被分配限制的容量。概述 CapacityScheduler 被设计成以分享的、多用户集群运行 Hadoop 应用并最大化利用集群的机制。传统上，每一个组织都会有它自己的私有电脑资源，在顶峰或接近顶峰状态有充足的容量来面对组织的SLA...

分类：其他好文时间：2014-05-09 13:59:54 阅读次数：424

hbase0.96数据导入以及Kettle操作hbase问题

版本：cdh5.0.0+hadoop2.3.0+hbase0.96.1.1+Spoon5.0.1一、HBase数据导入HBase数据导入使用org.apache.hadoop.hbase.mapreduce.ImportTsv 的两种方式，一种是直接导入，一种是转换为HFile，然后再次导入。1. HDFS数据为（部分）：[root@node33 data]# hadoop fs -ls /inp...

分类：其他好文时间：2014-05-09 00:25:48 阅读次数：515

Hadoop生态系统

摘要：介绍Hadoop生态系统，从Hadoop生态系统有什么成员，成员能做什么和Hadoop生态系统能够提供大数据问题解决方案两方面来认识。关键词：Hadoop HDFS MapReduce HBase Hive PigHadoop生态图，通俗地说，就是Hadoop核心模块和衍生的子项目。一幅Ha....

分类：其他好文时间：2014-05-08 23:16:24 阅读次数：387

Hadoop之MapReduce

http://blog.csdn.net/wangloveall/article/details/21407531摘要：MapReduce是Hadoop的又一核心模块，从MapReduce是什么，MapReduce能做什么以及MapReduce的工作机制三方面认识MapReduce。关键词：Hado...

分类：其他好文时间：2014-05-08 23:03:55 阅读次数：270

谷歌技术"三宝"之MapReduce(转）

原文:http://blog.csdn.net/opennaive/article/details/7514146目录MapReduce是干啥的例子统计词频map函数和reduce函数MapReduce是如何工作的词频是怎么统计出来的用户的权利MapReduce的实现参考文献江湖传说永流传：谷歌技术...

分类：其他好文时间：2014-05-08 06:36:39 阅读次数：435

Hadoop 组成

这里介绍一下hadoop的组成， hadoop主要由两部分组成，，一个是hdfs，另一个是mapreduce 这两个部分在hadoop 2.2.0中分别用start-dfs.sh和start-yarn.sh启动。mapreduce 在2.0版本中有了一个新名字yarn. dfs 主要用来启动 namenode 和 datanode， namenode既是是传说中的matser, datanod...

分类：其他好文时间：2014-05-07 04:33:35 阅读次数：359

Hadoop MapReduce2.0（Yarn）

MapReduce2.0（Yarn） MapReduce2.0是在Hadoop0.23开始采用的，叫做MapReduce2.0或者MRv2或者Yarn。 MRv2的主要思想是把jobtracker的任务分为两个基本的功能，一个是资源管理，一个是任务监控，这两个任务分别用不同的进程来运行。这个想法使拥有一个全局的资源管理器（ResourceManager）和每个应用程序的应用...

分类：其他好文时间：2014-05-07 04:05:06 阅读次数：272

Hbase学习笔记（安装和基础知识及操作）

参考书籍： Hadoop in action, 吴超沉思录1.Hbase简介 1.面向列的分布式数据库 2. 以HDFS作为文件系统 3. 利用MapReduce处理Hbase中海量数据 4. ZookKeeper作为协调工具 5. sqoop提供Hbase到关系型数据库中数据导入功能 ...

分类：其他好文时间：2014-05-07 00:35:59 阅读次数：424

Hadoop权威指南读书笔记

mapreduce数据本地化（核心特征）、无共享。 1 HDFS的设计为了存储超大文件流式访问（一次写入多次读取）商用硬件（不需要超豪华的机器） 2 数据快（block）磁盘一般是512字节 HDFS默认是64M 但与其他文件系统不同的是小于一个块大小的文件不会占用整个块的空间。块为什么设置这么大？（最小化寻址开销）块抽象带来的好处（一个文件的...

分类：其他好文时间：2014-05-06 23:26:24 阅读次数：519

Hive中join, outer join, semi join区别

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。最常用的就是多表关联查询，主要讲解下join、outer join和semi join的具体使用。 join是最简单的关联操作，两边关联只取交集。 outer join分为left outer join、rig...

分类：其他好文时间：2014-05-06 15:01:38 阅读次数：269

共4100条上一页 1 ... 406 407 408 409 410 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)