1.1 产品概述
VDataHub基于Apache Sqoop,最初定位是用于将关系数据库中的数据导入Hadoop/Hive/HBase。Sqoop基于Hadoop的MapReduce来完成数据导入导出工作,提供了很好的容错性。刚开始项目组也仅仅直接采用社区版本来完成数据导入导出。但在使用过程中,我们发现有很多地方是Sqoop现有版本没法支持的,如果不解决,是不能用于现有数据平台建设中的。
基...
分类:
其他好文 时间:
2014-11-21 18:50:54
阅读次数:
317
由于目前公司大量的数据存储在HBase中,各个业务线需要对HBase进行即时查询,但是又不方便实现自己的基于HBase Client的API的数据访问实现,他们希望能够像Hive对HDFS中的数据进行ETL一样,可以对HBase中的数据进行SQL操作 我们最初考虑的方式是Hive On HBa...
分类:
其他好文 时间:
2014-11-21 12:27:24
阅读次数:
190
静态分区表:一级分区表:CREATE TABLE order_created_partition ( orderNumber STRING , event_time STRING)PARTITIONED BY (event_month string)ROW FORMAT DELIMITED...
分类:
其他好文 时间:
2014-11-20 18:21:25
阅读次数:
343
一句话,Hive 开发比 Pig快多了...从hdfs读取数据:Hive: CREATE EXTRENAL TABLE IF NOT EXIST (domain string, num int) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' loc...
分类:
其他好文 时间:
2014-11-20 13:27:34
阅读次数:
174
Hive自身查询语言HQL能完成大部分的功能,但遇到特殊需求时,需要自己写UDF实现。以下是一个完整的案例。
1、eclipse中编写UDF
①项目中加入hive的lib下的所有jar包和Hadoop中share下hadoop-common-2.5.1.jar(Hadoop目前最新版本2.5.1)。
②UDF类要继承org.apache.hadoop.hive.ql.exec.UDF类,类中...
分类:
其他好文 时间:
2014-11-19 22:17:44
阅读次数:
350
hive concat_w实现将多行记录合并成一行...
分类:
其他好文 时间:
2014-11-19 20:37:53
阅读次数:
524
方式一: hadoop命令导出hadoop fs -get hdfs://hadoop000:8020/data/page_views2 pv2方式二:通过insert...directory导出 【spark暂不支持】导出到本地:INSERT OVERWRITE LOCAL directory.....
分类:
其他好文 时间:
2014-11-19 18:12:24
阅读次数:
181
上一篇文章分析了cloudera manager中监控数据、中心数据的存储方式,怎样配置外部表等。这一篇文章进一步分析监控数据的存储,配置,调优等。...
分类:
其他好文 时间:
2014-11-19 16:07:07
阅读次数:
288
今天dw组同事发邮件说有一个问题让帮解决一下,他们自己没能搞得定,以下问题解决过程:...
分类:
其他好文 时间:
2014-11-19 01:50:55
阅读次数:
281
Hadoop下,HDFS运维算是一个非常重要的过程。对于生产而言,海量数据被存储到了HDFS中,如果HDFS挂了,那么导致生产环境无法工作是小,遗失数据而造成的后果将更加巨大。下面总结下CDH体系下HDFS基础运维知识。首先得从HDFS下的NameNode开始,简介下NameNode的工作机制当我们把..
分类:
其他好文 时间:
2014-11-18 01:49:51
阅读次数:
284