共同点:1.hbase与hive都是架构在hadoop之上的。都是用hadoop作为底层存储区别:2.Hive是建立在Hadoop之上为了减少MapReduce jobs编写工作的批处理系统,HBase是为了支持弥补Hadoop对实时操作的缺陷的项目 。3.想象你在操作RMDB数据库,如果是全表扫描...
分类:
其他好文 时间:
2014-07-16 21:30:18
阅读次数:
167
一个问题困扰了很久,用sqoop import从mysql数据库导入到HDFS中的时候一直报错,最后才发现是一个时间日期类型的非法值导致。hive只支持timestamp类型,而mysql中的日期类型是datetime, 当datetime的值为0000-00-00 00:00:00的时候,sqoop import无法将其转换成hive, 然后报错。解决方法是在hive中使用string字段类型。...
分类:
其他好文 时间:
2014-07-15 12:58:08
阅读次数:
342
前言: 作为Hadoop生态系统中重要的一员, HBase作为分布式列式存储, 在线实时处理的特性, 备受瞩目, 将来能在很多应用场景, 取代传统关系型数据库的江湖地位. 本篇博文重点讲解HBase的数据导入, 描述三种方式, Client API, Bulkload, 以及Hive Over .....
分类:
其他好文 时间:
2014-07-14 15:51:39
阅读次数:
288
需求:数据仓库中所有表的定义结构保存到新的文件中,保存后类似下面数据,重复的数据只保留7月份即可****************ods_log_info*****************lid string uid string mb_uid string operation string modu...
分类:
编程语言 时间:
2014-07-14 14:29:01
阅读次数:
285
从源代码的角度来看一下Spark SQL的核心执行流程吧...
分类:
数据库 时间:
2014-07-12 21:07:32
阅读次数:
299
先要导入jxl架包,其中的abc.xls为测试Excel,具体代码如下,仅供参考:import java.io.File;import java.io.FileInputStream;import java.io.IOException;import java.io.InputStream;impo...
分类:
其他好文 时间:
2014-07-12 13:48:05
阅读次数:
211
Hive学习路线图Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, C...
分类:
其他好文 时间:
2014-07-11 08:48:52
阅读次数:
291
Spark1.1发布后会支持Spark SQL CLI , Spark SQL的CLI会要求被连接到一个Hive Thrift Server上,来实现类似hive shell的功能。...
分类:
数据库 时间:
2014-07-10 21:14:38
阅读次数:
737
12345678910111213141516on error resume NextSetobjDialog=CreateObject("UserAccounts.CommonDialog")objDialog.Filter="仅支持xls格式文件|*.xls"objDialog.InitialD...
分类:
其他好文 时间:
2014-07-10 17:02:44
阅读次数:
280
现在 Hadoop 已经发展成为包含多个子项目的集合。虽然其核心内容是 MapReduce 和Hadoop 分布式文件系统(HDFS),但 Hadoop 下的Common 、Avro、 Chukwa、Hive 、HBase等子项目也是不可或缺的。它们提供了互补性服务或在核心层上提供了更高层的服务。以...
分类:
其他好文 时间:
2014-07-10 14:57:00
阅读次数:
333