Spark是Apache公司推出的一种基于Hadoop Distributed File System(HDFS)的并行计算架构。与MapReduce不同,Spark并不局限于编写map和reduce两个方法,其提供了更为强大的内存计算(in-memory computing)模型,使得用户可以.....
分类:
其他好文 时间:
2014-10-01 17:33:51
阅读次数:
456
对于MapReduce编程,大概率的流程用过的人或多或少都清楚,但是归结到细节上,就有的地方不清楚了,下面根据自己的疑问,加上从网上各处,找到的被人的描述,最自己的疑问做出回答。1. MapReduce 和 HDFS有什么关系? 首先,HDFS和MapReduce是Hadoop最核心的设计; 对.....
分类:
其他好文 时间:
2014-09-30 18:54:49
阅读次数:
871
1.Storm是什么:Storm简单来说,就是分布式实时计算系统。按照storm作者的说法,storm对于实时计算的意义类似于hadoop对于批处理的意义。2.Storm的主要特点:1.简单的编程模型。类似于MapReduce降低了并行批处理复杂性,Storm降低了进行实时处理的复杂性。2.可以使用各种编程语..
分类:
其他好文 时间:
2014-09-29 20:00:11
阅读次数:
225
1.概述在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧。2.常见的join方法介绍假设要进行join的数据分别来自File1和File2.reducesidejoin是一种最简..
分类:
其他好文 时间:
2014-09-29 16:15:21
阅读次数:
245
alibaba/jstormJStorm 是一个分布式实时计算引擎。JStorm 是一个类似Hadoop MapReduce的系统, 用户按照指定的接口实现一个任务,然后将这个任务递交给JStorm系统,Jstorm将这个任务跑起来,并且按7 * 24小时运行起来,一旦中间一个worker 发生意外...
分类:
Web程序 时间:
2014-09-29 13:56:41
阅读次数:
273
一、代码编写1.1 单词统计 回顾我们以前单词统计的例子,如代码1.1所示。 1 package counter; 2 3 import java.net.URI; 4 5 import org.apache.hadoop.conf.Configuration; 6 import org.ap...
分类:
其他好文 时间:
2014-09-29 13:47:11
阅读次数:
410
我使用hadoop的是hadoop1.1.2,而很多公司也在使用hadoop0.2x版本,因此市面上的hadoop资料版本不一,为了扩充自己的知识面,MapReduce的新旧api进行了比较研究。 hadoop版本1.x的包一般是mapreduce hadoop版本0.x的包一般是mapre...
1、集群部署介绍1.1 Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesystem)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用....
分类:
其他好文 时间:
2014-09-28 14:04:02
阅读次数:
309
MapReduce 中如何处理HBase中的数据?如何读取HBase数据给Map?如何将结果存储到HBase中? 2012-07-05 13:40 89人阅读 评论(0) 收藏 举报MapReduce 中如何处理HBase中的数据?如何读取HBase数据给Map?如何将结果存储到HBase中?Map...
分类:
其他好文 时间:
2014-09-28 12:50:42
阅读次数:
198