搜索关键字：使用hadoop ecipse插件需要注，搜索到226个结果！码迷,mamicode.com！

Hadoop学习笔记_1_Hadoop源起与体系概述

Hadoop源起与体系概述引[一个典型的实验环境]： 1.服务器： ESXi，可以在上面部署10多台虚拟机，能同时启动4台; ESXi可以直接安装在裸机上面，而不用首先安装一个WinServer或Linux(StandAlone安装)。 ESXi在本质上就是一个高度定制化的Linux，其内核与周边环境都被VMWare公司修改了。 2.PC：要求Linux环境或Windows+Cygwin，Linux可以是StandAlone或者使用虚拟机 3.SSH：Windows下可以使用...

分类：其他好文时间：2014-08-01 19:47:02 阅读次数：264

Hadoop 自定义RPC protocol

RPC的全称为远程过程调用。由于Hadoop是一个分布式系统，因此底层的通信库也就必须实现RPC的基础功能。Hadoop RPC 在整个hadoop中扮演着底层通信模块的角色，举例而言NN和DN、AM和RM之间的通信和协调都是Hadoop RPC来完成的。熟悉使用Hadoop RPC可以加深我们对H...

分类：其他好文时间：2014-08-01 18:33:52 阅读次数：254

hadoop编程小技巧（6）---处理大量小数据文件CombineFileInputFormat应用

代码测试环境：Hadoop2.4应用场景：当需要处理很多小数据文件的时候，可以应用此技巧来达到高效处理数据的目的。原理：应用CombineFileInputFormat，可以把多个小数据文件在进行分片的时候合并。由于每个分片会产生一个Mapper，当一个Mapper处理的数据比较小的时候，其效率较低。而一般使用Hadoop处理数据时，即默认方式，会把一个输入数据文件当做一个分片，这样当输入文件较小...

分类：其他好文时间：2014-07-23 13:09:36 阅读次数：281

Why Hadoop2

Why Hadoop2? 自从Hadoop2出现之后，其迅速取代了Hadoop1的地位，并丰富了Hadoop的应用场景。如果现在有公司使用Hadoop的话，往往直接采用Hadoop2了。 Hadoop2能被如此广泛的使用，肯定有其自身的优势，本文将对其进行梳理...

分类：其他好文时间：2014-07-19 12:01:58 阅读次数：179

hadoop编程小技巧（4）---全局key排序类TotalOrderPartitioner

Hadoop代码测试版本：Hadoop2.4原理：在进行MR程序之前对输入数据进行随机提取样本，把样本排序，然后在MR的中间过程Partition的时候使用这个样本排序的值进行分组数据，这样就可以达到全局排序的目的了。难点：如果使用Hadoop提供的方法来实现全局排序，那么要求Mapper的输入、输出的key不变才可以，因为在源码InputSampler中提供的随机抽取的数据是输入数据最原始的ke...

分类：其他好文时间：2014-07-18 18:04:00 阅读次数：314

HDFS详解（3）——HDFS文件结构

HDFS中的NameNode、DataNode、Secondery NameNode是如何在磁盘上组织和存储持久化数据的？下面将分别进行介绍。注意，这里主要介绍的是Hadoop 2.0以前的版本，Hadoop 2.0以后版本文件结构稍微有一些变化，因为目前我们还没有使用hadoop 2.0，所以后面...

分类：其他好文时间：2014-07-12 08:52:04 阅读次数：544

Hadoop教程（一）

英文原文：cloudera，编译：ImportNew–Royce WongHadoop从这里开始!和我一起学习下使用Hadoop的基本知识，下文将以Hadoop Tutorial为主体带大家走一遍如何使用Hadoop分析数据!这个专题将描述用户在使用Hadoop MapReduce(下文缩写成MR)...

分类：其他好文时间：2014-07-08 11:38:11 阅读次数：315

Secondarynamenode无法正常备份:ERROR org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode: Exception in doCheckpoint

原先使用hadoop默认设置（hadoop1.2.1），secondarynamenode会正常进行备份，定时从namenode拷贝image文件到SNN。但是具体SNN备份的时间周期和log文件的大小无法定制，后来楼主就修改了SNN的设置，将fs.checkpoint.period修改为...

分类：其他好文时间：2014-06-27 16:05:28 阅读次数：452

使用 Apache Pig 处理数据5

使用 Apache Pig 从大数据集中获得所需的信息Apache Pig 是一个高级过程语言，适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集。通过允许对分布式数据集进行类似 SQL 的查询，Pig 可以简化 Hadoop 的使用。本文将探索 Pig 背后的语言，并在...

分类：其他好文时间：2014-06-18 23:59:12 阅读次数：305

王家林的云计算分布式大数据Hadoop征服之旅：HDFS&MapReduce&HBase&Hive&集群管理

一：课程简介：作为云计算实现规范和实施标准的Hadoop恰逢其时的应运而生，使用Hadoop用户可以在不了解分布式底层细节的情况下开发出分布式程序，从而可以使用众多廉价的计算设备的集群的威力来高速的运算和存储，而且Hadoop的运算和存储是可靠的、高效，的、可伸缩的，能够使用普通的社区服务器出来PB...

分类：其他好文时间：2014-06-05 16:37:09 阅读次数：285

共226条上一页 1 ... 20 21 22 23 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)