把CDH搭建起来了,跑其中的例子程序word-count。在控制台界面一直显示map 0% ?reduce 0% , 通过web页面查看job的状态一直是run,但是map没有执行。感觉是是资源的分配有问题。接着查看了任务的日志。 2014-07-04...
分类:
其他好文 时间:
2014-07-21 10:27:54
阅读次数:
822
#### 1. 在Hive中使用show tables;等命令报错:com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: Specified key was too long; max key length is 767 bytes **解决办法:** 到mysql中的hive数据库里...
分类:
其他好文 时间:
2014-07-21 10:12:36
阅读次数:
453
创建表:drop table tcreate table if not exists t (t string) partitioned by (log_date string) row format delimited fields terminated by '\t' lines terminat...
分类:
其他好文 时间:
2014-07-21 08:31:39
阅读次数:
281
常见案例一:空值产生的数据倾斜日志表有一部分的user_id为空或者是0的情况,导致在用user_id进行hash分桶时,会将日志由user_id为0或者为空的数据分到一个reduce上,导致数据倾斜;如:访户未登录时,日志中的user_id为空,用user_id和用户表的user_id进行关联的时...
分类:
其他好文 时间:
2014-07-21 00:25:23
阅读次数:
305
数据倾斜:数据分布不均匀,造成数据大量的集中到一点,造成数据热点;由于数据并不是平均分配的,会导致各个节点上处理的数据量是不均衡的,所以数据倾斜是无法避免的;造成数据倾斜的最根本原因:key分发不均匀造成的;常见的数据倾斜的症状1) Map阶段快,reduce阶段非常慢;2) 某些map很快,某些m...
分类:
其他好文 时间:
2014-07-20 22:18:56
阅读次数:
232
当该字段存在大量值为null或空的记录,容易发生数据倾斜;解决思路:count distinct时,将值为空的情况单独处理,如果是计算count distinct,可以不用处理,直接过滤,在最后结果中加1;如果还有其他计算,需要进行group by,可以先将值为空的记录单独处理,再和其他计算结果进行...
分类:
其他好文 时间:
2014-07-20 22:18:35
阅读次数:
1404
count(distinct key)案例explain select count(distinct session_id) from trackinfo where ds=' 2013-07-21' ;STAGE DEPENDENCIES: Stage-1 is a root stage St.....
分类:
其他好文 时间:
2014-07-20 22:16:56
阅读次数:
347
1、Map个数的决定因素通常情况下,作业会通过input文件产生一个或者多个map数;Map数主要的决定因素有: input总的文件个数,input文件的大小和集群中设置的block的大小(在hive中可以通过set dfs.block.size命令查看,该参数不能自定义修改);文件块数拆分原则:如...
分类:
其他好文 时间:
2014-07-20 09:09:51
阅读次数:
199
最近线上的hive升级到了0.13,遇到不少问题。权限上面,设置了hive.security.authorization.createtable.owner.grants在hive0.13中,用户自己创建的表也没有权限。通过对源码的分析和debug找到了rc并fix,下面记录下。1.首先在hive0.11中和hive0.13中分别做建表测试,通过查看..
分类:
其他好文 时间:
2014-07-20 06:44:52
阅读次数:
447