共同点:1.hbase与hive都是架构在hadoop之上的。都是用hadoop作为底层存储区别:2.Hive是建立在Hadoop之上为了减少MapReduce jobs编写工作的批处理系统,HBase是为了支持弥补Hadoop对实时操作的缺陷的项目 。3.想象你在操作RMDB数据库,如果是全表扫描...
分类:
其他好文 时间:
2014-07-16 21:30:18
阅读次数:
167
前言: 作为Hadoop生态系统中重要的一员, HBase作为分布式列式存储, 在线实时处理的特性, 备受瞩目, 将来能在很多应用场景, 取代传统关系型数据库的江湖地位. 本篇博文重点讲解HBase的数据导入, 描述三种方式, Client API, Bulkload, 以及Hive Over .....
分类:
其他好文 时间:
2014-07-14 15:51:39
阅读次数:
288
需求:数据仓库中所有表的定义结构保存到新的文件中,保存后类似下面数据,重复的数据只保留7月份即可****************ods_log_info*****************lid string uid string mb_uid string operation string modu...
分类:
编程语言 时间:
2014-07-14 14:29:01
阅读次数:
285
从源代码的角度来看一下Spark SQL的核心执行流程吧...
分类:
数据库 时间:
2014-07-12 21:07:32
阅读次数:
299
在Hive/bin 目录下输入./hive --service hiveserver 代表hive启动了服务器模式。和普通模式不同的是,这时hive同时启动了一个名为thrift的服务器。你不用去研究这个服务器的原理,认为他是一个传递信息的人就好,你可以通过他向hive发送命令,然后hive再把命令...
分类:
其他好文 时间:
2014-07-11 19:51:58
阅读次数:
699
海量数据处理使用的大多是鼎鼎大名的hadoop或者hive,作为一个批处理系统,hadoop以其吞吐量大、自动容错等优点,在海量数据处理上得到了广泛的使用。但是,hadoop不擅长实时计算,因为它天然就是为批处理而生的,这也是业界一致的共识。否则最近这两年也不会有s4,storm,puma这些实时计...
分类:
其他好文 时间:
2014-07-11 10:00:17
阅读次数:
213
1、时间函数from_unixtime函数 用法为将时间戳转换为时间格式语法: from_unixtime(bigint unixtime[, string format]) 返回值为string例如 hive>select from_unixtime(1326988805,'yyyyMMddHH....
分类:
其他好文 时间:
2014-07-11 09:53:10
阅读次数:
319
Hive学习路线图Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, C...
分类:
其他好文 时间:
2014-07-11 08:48:52
阅读次数:
291
Spark1.1发布后会支持Spark SQL CLI , Spark SQL的CLI会要求被连接到一个Hive Thrift Server上,来实现类似hive shell的功能。...
分类:
数据库 时间:
2014-07-10 21:14:38
阅读次数:
737
现在 Hadoop 已经发展成为包含多个子项目的集合。虽然其核心内容是 MapReduce 和Hadoop 分布式文件系统(HDFS),但 Hadoop 下的Common 、Avro、 Chukwa、Hive 、HBase等子项目也是不可或缺的。它们提供了互补性服务或在核心层上提供了更高层的服务。以...
分类:
其他好文 时间:
2014-07-10 14:57:00
阅读次数:
333