hive按当天日期建立分区表 | 动态往日期分区插入数据...
分类:
其他好文 时间:
2014-08-15 19:39:10
阅读次数:
352
一、 Hive join优化
1. 尽量将小表放在join的左边,我们这边使用的hive-0.12.0,所以是自动转化的,既把小表自动装入内存,执行map side join(性能好), 这是由参数hive.auto.convert.join=true 和hive.smalltable.filesize=25000000L)参数控制(默认是25M),如果表文件大小在25M左右,可...
分类:
其他好文 时间:
2014-08-15 17:50:39
阅读次数:
272
Hive 已是目前业界最为通用、廉价的构建大数据时代数据仓库的解决方案了,虽然也有 Impala 等后起之秀,但目前从功能、稳定性等方面来说,Hive 的地位尚不可撼动。其实这篇博文主要是想聊聊 SMB join 的,Join 是整个 MR/Hive 最为核心的部分之一,是每个 Hadoop/Hiv...
分类:
其他好文 时间:
2014-08-14 16:22:48
阅读次数:
244
sqoop从oracle定时增量导入数据到hive感谢:http://blog.sina.com.cn/s/blog_3fe961ae01019a4l.htmlhttp://f.dataguru.cn/thread-94073-1-1.html sqoop.metastore.client.reco...
分类:
数据库 时间:
2014-08-14 16:09:48
阅读次数:
330
Hive常用的存储类型有:1、TextFile: Hive默认的存储类型;文件大占用空间大,未压缩,查询慢;2、Sequence File:3、RCFile:facebook开发的一个集行存储和列存储的优点于一身,压缩比更高,读取列更快,它在mr环境中大规模数据处理中扮演着重要的角色;是一种行列存储...
分类:
其他好文 时间:
2014-08-14 16:01:08
阅读次数:
283
Array一组有序字段,字段的类型必须相同。Array(1,2)create table hive_array(ip string, uid array)row format delimited fields terminated by ','collection items terminated ...
分类:
其他好文 时间:
2014-08-14 15:56:58
阅读次数:
186
order by1、order by会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局排序); 只有一个reducer会导致当输入规模较大时,需要较长的计算时间,速度很非常慢;2、hive.mapred.mode(默认值是nonstrict)对order by的影响 .....
分类:
其他好文 时间:
2014-08-13 21:48:17
阅读次数:
481
本案例使用的数据均来源于Oracle自带的emp和dept表创建表语法:CREATE [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name [(col_name data_type [COMMENT col_comment], ...)] [.....
分类:
其他好文 时间:
2014-08-13 18:30:17
阅读次数:
334
hadoop2 hive0.13.0 hbase 0.98.2版本集成错误总结...
分类:
其他好文 时间:
2014-08-13 15:01:16
阅读次数:
246
在使用命令导数据过程中,出现如下错误sqoop import --hive-import --connect jdbc:oracle:thin:@192.168.29.16:1521/testdb --username NAME --passord PASS --verbose -m 1 --tab...
分类:
数据库 时间:
2014-08-13 00:36:34
阅读次数:
602