对于刚接触大数据的用户来说,要想区分Hive与HBase是有一定难度的。本文将尝试从其各自的定义、特点、限制、应用场景等角度来进行分析,以作抛砖引玉之用。Hive是什么?Apache Hive是一个构建于Hadoop(分布式系统基础架构)顶层的数据仓库,注意这里不是数据库。Hive可以看作是用户编程...
分类:
其他好文 时间:
2014-07-22 22:45:54
阅读次数:
257
参考资料1.QuickStarthttps://cwiki.apache.org/confluence/display/Hive/GettingStarted2.Tutorialhttps://cwiki.apache.org/confluence/display/Hive/Tutorial3.官方...
分类:
其他好文 时间:
2014-07-22 22:44:14
阅读次数:
249
一:搭建JStorm环境(三个机器组成的集群)1. 搭建Zookeeper集群2. 安装java1.7和python 2.6,因为JStorm是由大量的java和python编写。3. 安装JStorm-0.9.3.1。4. JStorm需要tomcat来展现UI,所以需要安装tomcat。二:写完TopK_on_JStorm的第一个版本(项目地址),整个项目提供一个简单的topk计算流程,由并发度为1的ScoreProduceSpout提供随机数数据(id,score),并发度为4的ComputeBolt...
分类:
Web程序 时间:
2014-07-22 14:47:04
阅读次数:
279
Hive不支持where子句中的子查询,SQL常用的exist in子句需要改写。这一改写相对简单。考虑以下SQL查询语句:SELECT a.key, a.value FROM a WHERE a.key in (SELECT b.key FROM B);改写成:SELECT a.key, a.va...
分类:
数据库 时间:
2014-07-22 08:07:35
阅读次数:
1966
关键字情形后果join其中一个表较小,但key集中分发到某一个或几个reduce上的数据远高于平均值大表与大表关联,但是分桶的判断字段0值或空值过多这些空值都由一个reduce处理,非常慢group byGroup by维度过小,某值的数量过多处理某值的reduce非常耗时count distinc...
分类:
其他好文 时间:
2014-07-22 08:07:33
阅读次数:
180
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据...
分类:
其他好文 时间:
2014-07-22 00:20:35
阅读次数:
252
常见案例一:空值产生的数据倾斜日志表有一部分的user_id为空或者是0的情况,导致在用user_id进行hash分桶时,会将日志由user_id为0或者为空的数据分到一个reduce上,导致数据倾斜;如:访户未登录时,日志中的user_id为空,用user_id和用户表的user_id进行关联的时...
分类:
其他好文 时间:
2014-07-21 00:25:23
阅读次数:
305
数据倾斜:数据分布不均匀,造成数据大量的集中到一点,造成数据热点;由于数据并不是平均分配的,会导致各个节点上处理的数据量是不均衡的,所以数据倾斜是无法避免的;造成数据倾斜的最根本原因:key分发不均匀造成的;常见的数据倾斜的症状1) Map阶段快,reduce阶段非常慢;2) 某些map很快,某些m...
分类:
其他好文 时间:
2014-07-20 22:18:56
阅读次数:
232
当该字段存在大量值为null或空的记录,容易发生数据倾斜;解决思路:count distinct时,将值为空的情况单独处理,如果是计算count distinct,可以不用处理,直接过滤,在最后结果中加1;如果还有其他计算,需要进行group by,可以先将值为空的记录单独处理,再和其他计算结果进行...
分类:
其他好文 时间:
2014-07-20 22:18:35
阅读次数:
1404
count(distinct key)案例explain select count(distinct session_id) from trackinfo where ds=' 2013-07-21' ;STAGE DEPENDENCIES: Stage-1 is a root stage St.....
分类:
其他好文 时间:
2014-07-20 22:16:56
阅读次数:
347