SMB 存在的目的主要是为了解决大表与大表间的 Join 问题,分桶其实就是把大表化成了“小表”,然后 Map-Side Join 解决之,这是典型的分而治之的思想。在聊 SMB Join 之前,我们还是先复习下相关的基础概念。1、Hive 分区表在Hive Select查询中一般会扫描整个表内容,...
分类:
其他好文 时间:
2015-03-05 18:41:32
阅读次数:
128
各位真的不好意思。上次的博文有误。上次的应该是HBase的伪分布式安装。这次本人保证是完全分布式安装。 首先是HBase的完成分布式安装。这次部署的环境是hadoop-1.2.1+hbase-0.98.X。因为这个版本的HBase是直接对应hadoop-1.2.1,故也就省去了覆盖jar包...
分类:
数据库 时间:
2015-03-05 14:17:32
阅读次数:
146
hive的优化问题1。启动一次JOB尽可能多做事,尽量减少job的数量。能重用就重用,要设计好的模型。2。合理设置reduce个数,reduce个数过多,会造成大量小文件问题。3。使用hive.exec.parallel参数控制在同一个sql中的不同的job是否可以同时运行,提高作业的并发4。注意j...
分类:
其他好文 时间:
2015-03-04 16:44:01
阅读次数:
340
hive使用regexp_replace函数,处理敏感字段。...
分类:
其他好文 时间:
2015-03-02 19:06:37
阅读次数:
604
本文转载自:http://blog.csdn.net/an342647823/article/details/196247331.hive模糊搜索表 show tables like '*name*';2.查看表结构信息 desc formatted table_name; desc table_n...
分类:
其他好文 时间:
2015-03-02 18:50:23
阅读次数:
202
本文转载自:http://blog.csdn.net/haojun186/article/details/79775651.HIVE结构Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoo...
分类:
其他好文 时间:
2015-03-02 18:11:16
阅读次数:
387
导读:Apache Hive是一个构建于Hadoop(分布式系统基础架构)顶层的数据仓库,Apache HBase是运行于HDFS顶层的NoSQL(=Not Only SQL,泛指非关系型的数据库)数据库系统。区别于Hive,HBase具备随即读写功能,是一种面向列的数据库。对于刚接触大数据的用户来...
分类:
其他好文 时间:
2015-03-01 13:01:55
阅读次数:
223
SQOOP是用于对数据进行导入导出的。 (1)把MySQL、Oracle等数据库中的数据导入到HDFS、Hive、HBase中 (2)把HDFS、Hive、HBase中的数据导出到MySQL、Oracle等数据库中 (3)导入导出的事务是以Mapper任务为单位。1、sqoop的安装步骤 1....
分类:
其他好文 时间:
2015-02-28 18:05:17
阅读次数:
199
1、Hive 1.1在hadoop生态圈中属于数据仓库的角色。他能够管理hadoop中的数据,同时可以查询hadoop中的数据。 本质上讲,hive是一个SQL解析引擎。Hive可以把SQL查询转换为MapReduce中的job来运行。 hive有一套映射工具,可以把SQL转换为MapReduce中...
分类:
其他好文 时间:
2015-02-28 16:05:57
阅读次数:
195
在报表项目中,报表源数据常常会来自于多种异构数据源。例如:关系型数据库(oracle、db2、mysql),nosql数据库(mongodb),http数据源,hadoop(hive、hdfs)甚至是excel或者文本文件。通常的做法是采用ETL工具,将这些数据源都同步到数据仓库中。但是这样做的问题在于:1、..
分类:
其他好文 时间:
2015-02-27 18:49:13
阅读次数:
245