hive的优化问题1。启动一次JOB尽可能多做事,尽量减少job的数量。能重用就重用,要设计好的模型。2。合理设置reduce个数,reduce个数过多,会造成大量小文件问题。3。使用hive.exec.parallel参数控制在同一个sql中的不同的job是否可以同时运行,提高作业的并发4。注意j...
分类:
其他好文 时间:
2015-03-04 16:44:01
阅读次数:
340
hive使用regexp_replace函数,处理敏感字段。...
分类:
其他好文 时间:
2015-03-02 19:06:37
阅读次数:
604
本文转载自:http://blog.csdn.net/an342647823/article/details/196247331.hive模糊搜索表 show tables like '*name*';2.查看表结构信息 desc formatted table_name; desc table_n...
分类:
其他好文 时间:
2015-03-02 18:50:23
阅读次数:
202
本文转载自:http://blog.csdn.net/haojun186/article/details/79775651.HIVE结构Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoo...
分类:
其他好文 时间:
2015-03-02 18:11:16
阅读次数:
387
导读:Apache Hive是一个构建于Hadoop(分布式系统基础架构)顶层的数据仓库,Apache HBase是运行于HDFS顶层的NoSQL(=Not Only SQL,泛指非关系型的数据库)数据库系统。区别于Hive,HBase具备随即读写功能,是一种面向列的数据库。对于刚接触大数据的用户来...
分类:
其他好文 时间:
2015-03-01 13:01:55
阅读次数:
223
http://blog.csdn.net/hpb21/article/details/7852934找了点资料看了下。学习心得如下:1 Mysql更新Redis Mysql更新Redis借鉴memcache与mysql通信,利用mysql udf,每有更新操作触发更新redis操作。不足在高并发时m...
分类:
数据库 时间:
2015-02-28 18:24:55
阅读次数:
271
SQOOP是用于对数据进行导入导出的。 (1)把MySQL、Oracle等数据库中的数据导入到HDFS、Hive、HBase中 (2)把HDFS、Hive、HBase中的数据导出到MySQL、Oracle等数据库中 (3)导入导出的事务是以Mapper任务为单位。1、sqoop的安装步骤 1....
分类:
其他好文 时间:
2015-02-28 18:05:17
阅读次数:
199
1、Hive 1.1在hadoop生态圈中属于数据仓库的角色。他能够管理hadoop中的数据,同时可以查询hadoop中的数据。 本质上讲,hive是一个SQL解析引擎。Hive可以把SQL查询转换为MapReduce中的job来运行。 hive有一套映射工具,可以把SQL转换为MapReduce中...
分类:
其他好文 时间:
2015-02-28 16:05:57
阅读次数:
195
在报表项目中,报表源数据常常会来自于多种异构数据源。例如:关系型数据库(oracle、db2、mysql),nosql数据库(mongodb),http数据源,hadoop(hive、hdfs)甚至是excel或者文本文件。通常的做法是采用ETL工具,将这些数据源都同步到数据仓库中。但是这样做的问题在于:1、..
分类:
其他好文 时间:
2015-02-27 18:49:13
阅读次数:
245
在最新版本的ODI中,通过使用各种知识模块,可在统一的界面上实现对传统数据库、hive, pig, spark, hdfs等的ETL操作,满足在同一系统或采用相同的方式实现ETL功能。详细的内容可参考:http://www.oracle.com/technetwork/database/bigdat...
分类:
数据库 时间:
2015-02-25 15:33:48
阅读次数:
140