hive是一个SQL解析引擎,可以在hive中创建表,执行sql语句。创建的表是存储在hdfs中,执行的sql语句是通过MapReduce执行的。可以通过执行sql语句来代替编写MapReduce作业,太方便了!1.解压缩、设置环境hive使用的版本是hive-0.9.0.tar.gz。我们在/.....
分类:
其他好文 时间:
2014-06-27 19:59:49
阅读次数:
179
Sqoop官网:http://sqoop.apache.org/*) Sqoop介绍Sqoop用来在Hadoop和关系数据库中传递数据。通过sqoop,我们可以方便的将数据从关系数据库导入到HDFS,或者将数据从HDFS导出到关系数据库。参考链接:http://blog.csdn.net/yfkis...
分类:
其他好文 时间:
2014-06-26 17:49:46
阅读次数:
212
# 学习前言
想学习一下Flume,网上找了好多文章基本上都说的很简单,只有一半什么的,简直就是坑爹,饿顿时怒火就上来了,学个东西真不容易,然后自己耐心的把这些零零碎碎的东西整理整理,各种搭环境实验之后才弄好的,也不容易啊,希望可以帮到想学Flume的你 、、、
# Flume介绍
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制...
分类:
其他好文 时间:
2014-06-26 08:01:52
阅读次数:
449
Hbase是一个分布式,版本化(versioned),构建在 Apache Hadoop和 Apache ZooKeeper上的列数据库.本文使用默认的Zookeeper,构造HDFS基础上的分布式Hbase。1 安装环境操作系统:Ubuntu-12.04 JDK版本:jdk1.7.0_51 计算....
分类:
其他好文 时间:
2014-06-26 00:31:04
阅读次数:
302
Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下,Impala的最大特点也是最大卖点就是它的快速。Impala 为存储在 HDFS 和 HBase 中的数据提供了一个实时 SQL 查询接口。...
分类:
其他好文 时间:
2014-06-25 10:56:38
阅读次数:
355
部署安装了最新稳定版hadoop2.2.0,然后在网上找来fuse-dfs编译教程,但是最后失败了,至今原因未知~~,错误描述为:Transport endpoint is not connected。后将安装部署hadoop1.2.1版本,最后测试成功,记录如下:
使用root完成一下操作:
1、安装依赖包
apt-get install autoconf automake libtool...
分类:
其他好文 时间:
2014-06-25 08:17:08
阅读次数:
302
背景: Hadoop的HDFS文件系统的挂载, 默认指定的文件目录是/mnt/disk{N}. 当运维人员, 不小心把磁盘挂载于其他目录, 比如/mnt/data, /mnt/disk01, /mnt/diska时, HDFS会选择根分区, 当往HDFS里灌数据时, 导致的结果往往是根分区被快速的....
分类:
系统相关 时间:
2014-06-24 15:05:25
阅读次数:
304
六、Hadoop1.x与Hadoop2的区别1、变更介绍Hadoop2相比较于Hadoop1.x来说,HDFS的架构与MapReduce的都有较大的变化,且速度上和可用性上都有了很大的提高,Hadoop2中有两个重要的变更:l HDFS的NameNodes可以以集群的方式布署,增强了NameNodes的水平扩展能力和可用性;l MapReduce将JobTracker中的资源管理及任务生命周期管理...
分类:
其他好文 时间:
2014-06-22 14:07:49
阅读次数:
256
Hama学习笔记
1. Hama定义
Hama是基于HDFS上的BSP模型实现,其运行不需要MapReduce。例证如下: 在单点调试的Hama系统上,只运行NameNode、DataNode、BSPMasterRunner、GroomServerRunner和 ZooKeeperRunner进程,即可运行PageRank程序。
2. MapReduce与BSP区别
执行机制:MapR...
分类:
其他好文 时间:
2014-06-21 23:12:18
阅读次数:
268
从数据爆炸开始。。。
1.1 第三次工业革命
第一次:18世纪60年代,手工工厂向机器大生产过渡,以蒸汽机的发明和使用为标志。
第二次:19世纪70年代,各种新技术新发明不断被应用于工业生产,以电力的发明使用为标志。
第三次:20世界四五十年代末,以高新技术为代表的新科学技术革命,以原子能、航天技术和电子计算机
1.2 信息技术发展...
分类:
其他好文 时间:
2014-06-21 21:12:22
阅读次数:
399