Spark简述Spark发源于美国加州大学伯克利分校AMPLab的集群计算平台。它立足
于内存计算,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式。
特点:
1、轻
Spark 0.6核心代码有2万行,Hadoop1.0为9万行,2.0为22万行。2、快
Spark对小数据集能达到亚秒级的廷迟,这对于Hadoop MapReduce是无法想象的(由于”心跳”间隔机制,...
分类:
其他好文 时间:
2015-06-24 21:03:48
阅读次数:
412
简介HBase(Hadoop Database)是一个多版本,高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。
HBase利用Hadoop HDFS作为其文件存储系统。提供高可靠,高性能,列存储,可伸缩 ,实时读写,适用于非结构化数据存储的数据库系统。
HBase利用Hadoop MapReduce来处理HBase中的...
分类:
其他好文 时间:
2015-06-17 23:27:29
阅读次数:
407
1.flume是分布式的日志收集系统,把收集来的数据传送到目的地去。
2.flume里面有个核心概念,叫做agent。agent是一个java进程,运行在日志收集节点。
3.agent里面包含3个核心组件:source、channel、sink。
3.1 source组件是专用于收集日志的,可以处理各种类型各种格式的日志数据,包括avro、thrift、exec、jms、spooling d...
分类:
Web程序 时间:
2015-06-16 14:45:05
阅读次数:
188
1. 来源和特点 源自于Google的MapReduce论文 : 发表于2004年12月 Hadoop MapReduce是Google MapReduce克隆版 特点: 易于编程 良好的扩展性 高容错性 适合PB级以上海量数据的离线处理 不擅长的方面: 实时计算 像MySQL一样,在毫秒级或者秒级...
分类:
其他好文 时间:
2015-06-15 12:56:48
阅读次数:
265
1.Hive
1.1在hadoop生态圈中属于数据仓库的角色。他能够管理hadoop中的数据,同时可以查询hadoop中的数据。
本质上讲,hive是一个SQL解析引擎。Hive可以把SQL查询转换为MapReduce中的job来运行。
hive有一套映射工具,可以把SQL转换为MapReduce中的job,可以把SQL中的表、字段转换为HDFS中的文件(夹)以及文件中的列。...
分类:
其他好文 时间:
2015-06-15 00:18:25
阅读次数:
98
1.Pig是基于hadoop的一个数据处理的框架。
MapReduce是使用java进行开发的,Pig有一套自己的数据处理语言,Pig的数据处理过程要转化为MR来运行。
2.Pig的数据处理语言是数据流方式的,类似于初中做的数学题。
3.Pig基本数据类型:int、long、float、double、chararry、bytearray
复合数据类型:Map、Tuple、Ba...
分类:
其他好文 时间:
2015-06-14 16:44:27
阅读次数:
121
简述
Partitioner组件可以让Map对Key进行分区,从而可以根据不同的key来分发到不同的reduce中去处理;你可以自定义key的一个分发规则,如数据文件包含不同的大学,而输出的要求是每个大学输出一个文件;Partitioner组件提供了一个默认的HashPartitioner。package org.apache.hadoop.mapreduce.lib.partition;
pub...
分类:
其他好文 时间:
2015-06-14 12:32:10
阅读次数:
145
//mapreduce程序
import java.io.IOException;
import java.util.StringTokenizer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop....
分类:
其他好文 时间:
2015-06-12 17:18:19
阅读次数:
134
HBASE Shell
进入Habse数据库终端:#$HBASE_HOME/bin/hbase shell
创建表
>create'users','user_id','address','info'
表users,有三个列族user_id,address,info
列出全部表
>list
得到表的描述
>describe 'users
创建表
>create'u...
分类:
系统相关 时间:
2015-06-12 01:03:21
阅读次数:
179
不多说,直接上代码,大家都懂得
package hbase;
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.HColumnDesc...
分类:
编程语言 时间:
2015-06-12 01:03:06
阅读次数:
150