1.Storm是什么:Storm简单来说,就是分布式实时计算系统。按照storm作者的说法,storm对于实时计算的意义类似于hadoop对于批处理的意义。2.Storm的主要特点:1.简单的编程模型。类似于MapReduce降低了并行批处理复杂性,Storm降低了进行实时处理的复杂性。2.可以使用各种编程语..
分类:
其他好文 时间:
2014-09-29 20:00:11
阅读次数:
225
1.概述在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧。2.常见的join方法介绍假设要进行join的数据分别来自File1和File2.reducesidejoin是一种最简..
分类:
其他好文 时间:
2014-09-29 16:15:21
阅读次数:
245
alibaba/jstormJStorm 是一个分布式实时计算引擎。JStorm 是一个类似Hadoop MapReduce的系统, 用户按照指定的接口实现一个任务,然后将这个任务递交给JStorm系统,Jstorm将这个任务跑起来,并且按7 * 24小时运行起来,一旦中间一个worker 发生意外...
分类:
Web程序 时间:
2014-09-29 13:56:41
阅读次数:
273
一、代码编写1.1 单词统计 回顾我们以前单词统计的例子,如代码1.1所示。 1 package counter; 2 3 import java.net.URI; 4 5 import org.apache.hadoop.conf.Configuration; 6 import org.ap...
分类:
其他好文 时间:
2014-09-29 13:47:11
阅读次数:
410
我使用hadoop的是hadoop1.1.2,而很多公司也在使用hadoop0.2x版本,因此市面上的hadoop资料版本不一,为了扩充自己的知识面,MapReduce的新旧api进行了比较研究。 hadoop版本1.x的包一般是mapreduce hadoop版本0.x的包一般是mapre...
hadoop的核心思想是MapReduce,但shuffle又是MapReduce的核心。shuffle的主要工作是从Map结束到Reduce开始之间的过程。首先看下这张图,就能了解shuffle所处的位置。图中的partitions、copy phase、sort phase所代表的就是shu.....
分类:
其他好文 时间:
2014-09-28 14:30:12
阅读次数:
368
1、集群部署介绍1.1 Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesystem)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用....
分类:
其他好文 时间:
2014-09-28 14:04:02
阅读次数:
309
MapReduce 中如何处理HBase中的数据?如何读取HBase数据给Map?如何将结果存储到HBase中? 2012-07-05 13:40 89人阅读 评论(0) 收藏 举报MapReduce 中如何处理HBase中的数据?如何读取HBase数据给Map?如何将结果存储到HBase中?Map...
分类:
其他好文 时间:
2014-09-28 12:50:42
阅读次数:
198
一、回顾单词统计源码 1 package counter; 2 3 import java.net.URI; 4 5 import org.apache.hadoop.conf.Configuration; 6 import org.apache.hadoop.fs.FileSystem; 7 .....
分类:
其他好文 时间:
2014-09-28 11:00:52
阅读次数:
249