桶表1)桶是更为细粒度的数据范围划分,它能使一些特定的查询效率更高2)保存数据时,取分桶字段的哈希值,跟分桶数取余,然后将数据放到不同的桶(文件)里。1、定义:create table b1(id int, name string) clustered by (id) into 4 buckets;...
分类:
其他好文 时间:
2015-06-08 14:45:38
阅读次数:
427
在当前用户的家目录下有个.hivestory文件,里面存放了用户执行的hive操作记录,如下:[hadoop@hadoop1 hive-0.14]$ cat ~/.hivehistoryshow databases;quit;quit;create table pokes(foo int, bar ...
分类:
其他好文 时间:
2015-06-08 13:19:32
阅读次数:
290
order by: order by是全局排序,受hive.mapred.mode的影响。 使用orderby有一些限制: 1、在严格模式下(hive.mapred.mode=strict),orderby必须跟limit一起使用(?)。 原因:在执行orderby时,hive使用一个reducer...
分类:
编程语言 时间:
2015-06-08 13:12:40
阅读次数:
152
hive默认使用derby数据库保存元数据,derby数据库比较小众,并且一次只能打开一个会话,一般修改为mysql数据库。1、修改conf/hive-site.xml配置项: javax.jdo.option.ConnectionURL jdbc:mysql://hadoop1:3306/hive...
分类:
数据库 时间:
2015-06-08 13:12:09
阅读次数:
212
使用hive cli的时候,会读取.hiverc脚本,在.hiverc脚本里可以做一些自己的预设。比如:set hive.cli.print.current.db=true;set hive.cli.print.header=true;.hiverc可以放在~(linux用户家目录)、$HIVE_H...
分类:
其他好文 时间:
2015-06-08 13:09:47
阅读次数:
124
1、下载hive并压缩2、修改conf下的文件 1)去掉所有文件的后缀.template 2)复制hive-default.xml为hive-site.xml,并编辑hive-site.xml中的内容为空: 3)编辑hive-env.sh里的内容:export JAVA_HOME=~/java/jd...
分类:
其他好文 时间:
2015-06-08 13:06:46
阅读次数:
108
利用sqoop将Hive数据表导出到Mysql...
分类:
数据库 时间:
2015-06-08 11:41:47
阅读次数:
162
利用sqoop将Mysql数据表导入到Hive...
分类:
数据库 时间:
2015-06-08 11:40:33
阅读次数:
206
注册UDFdo.pig的内容如下:register /xx/yy.jardata = load 'data';result = foreach data generate aa.bb.Upper($0);dump result; register的路径可以是本地路径,也可以是hdfs路径regis....
分类:
其他好文 时间:
2015-06-07 23:24:54
阅读次数:
201