如果单从概念上来说,Mapreduce和R中的函数lapply, tapply并无差别,它们都是把元素转化成列,然后计算索引(Mapreduce中的键),最后合并成一个定义好的组合。首先,让我们看一个简单的lappy的例子。small.ints = 1:1000sapply(small.ints, ...
分类:
其他好文 时间:
2014-07-10 11:00:32
阅读次数:
174
mongoDB是一种强大、灵活。可拓展的数据存储方式。他扩展了关系数据库的众多功能,如辅助索引、范围查询、排序。mongodb的功能非常的丰富,比如比如内置的对mapreduce式聚合的支持,以及对地理空间索引的支持。一、优点(1)丰富的数据类型(2)容易拓展(3)丰富的功能(4)不牺牲速度(5)简...
分类:
数据库 时间:
2014-07-09 23:58:30
阅读次数:
368
InputFormat主要用于描述输入数据的格式(我们只分析新API,即org.apache.hadoop.mapreduce.lib.input.InputFormat),提供以下两个功能: (1)数据切分:按照某个策略将输入数据切分成若干个split,以便确定MapTask个数以及对应的s...
分类:
其他好文 时间:
2014-07-09 23:49:37
阅读次数:
487
我们在MapReduce中TextInputFormat分片和读取分片数据源码级分析 这篇中以TextInputFormat为例讲解了InputFormat的分片过程以及RecordReader读取分片数据的过程。接下来咱们分析TableInputFormat的分片信息和数据读取过程。 Tab...
分类:
其他好文 时间:
2014-07-07 20:09:05
阅读次数:
260
这篇文章是看了HBase权威指南之后,根据上面的讲解搬下来的例子,这篇文章将讲解两个例子,和HBase权威指南稍微有些不一样。
1、读取存储在hdfs上的txt文本数据,简单地以json字符串的形式写入到HBase表中。
2、将第一步存储的HBase表中的json字符串读取出来,解析存储到新的HBase表中,可以进行查询。
本文详细给出了源码以及如何运行,旨在加深HBase与mapreduc...
分类:
其他好文 时间:
2014-06-29 23:21:21
阅读次数:
340
一. 介绍 HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable:一个结构化数据的分布式存储系统》。HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的.....
分类:
其他好文 时间:
2014-06-29 19:20:17
阅读次数:
252
hive是一个SQL解析引擎,可以在hive中创建表,执行sql语句。创建的表是存储在hdfs中,执行的sql语句是通过MapReduce执行的。可以通过执行sql语句来代替编写MapReduce作业,太方便了!1.解压缩、设置环境hive使用的版本是hive-0.9.0.tar.gz。我们在/.....
分类:
其他好文 时间:
2014-06-27 19:59:49
阅读次数:
179
package com.leaf.hadoop.second;
import java.util.Random;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hado...
分类:
其他好文 时间:
2014-06-27 10:00:17
阅读次数:
294
过去十年,数据处理领域发生了很大的变化,可以认为是发生了一次革命。MapReduce、Hadoop以及其他相关技术使得在存储和处理我们以前无法想象的大规模数据方面成为可能。然后不幸的是,这些数据处理技术并不是实时系统,而且他们命中注定也不是。无法将Hadoop转换成实时系统,因为实时数据处理和批处理在要求上有本质的不同。
然后,大规模地实时数据处理需求在商业应用上已经越来越迫切。数据处理生态中缺少”实时Hadoop“(即类似于Hadoop在批处理领域的通用解决方案)已经成为一个最大的遗憾。Storm弥补了...
分类:
其他好文 时间:
2014-06-27 09:04:04
阅读次数:
184
摘要:Hadoop已经成为大数据的代名词。短短几年间,Hadoop从一种边缘技术成为事实上的标准。而另一方面,MapReduce在谷歌已不再显赫。当企业瞩目MapReduce的时候,谷歌好像早已进入到了下一个时代。 Hadoop技术已经无处不在。不管是好是坏,Hadoop已经成为大数据的代名词。短短...
分类:
其他好文 时间:
2014-06-26 17:02:48
阅读次数:
191