码迷,mamicode.com
首页 >  
搜索关键字:hive on spark    ( 12366个结果
Apache Spark源码走读之19 -- standalone cluster模式下资源的申请与释放
本文主要讲述在standalone cluster部署模式下,应用(Driver Application)所需要的资源是如何获得,在应用退出时又是如何释放的。
分类:其他好文   时间:2014-07-22 22:48:15    阅读次数:243
sql中的exist in在hive中的用法
Hive不支持where子句中的子查询,SQL常用的exist in子句需要改写。这一改写相对简单。考虑以下SQL查询语句:SELECT a.key, a.value FROM a WHERE a.key in (SELECT b.key FROM B);改写成:SELECT a.key, a.va...
分类:数据库   时间:2014-07-22 08:07:35    阅读次数:1966
Hive语法层面优化之七数据倾斜总结
关键字情形后果join其中一个表较小,但key集中分发到某一个或几个reduce上的数据远高于平均值大表与大表关联,但是分桶的判断字段0值或空值过多这些空值都由一个reduce处理,非常慢group byGroup by维度过小,某值的数量过多处理某值的reduce非常耗时count distinc...
分类:其他好文   时间:2014-07-22 08:07:33    阅读次数:180
Spark源码系列(八)Spark Streaming实例分析
这一章要讲Spark Streaming,讲之前首先回顾下它的用法,具体用法请参照《Spark Streaming编程指南》。Example代码分析val ssc = new StreamingContext(sparkConf, Seconds(1));// 获得一个DStream负责连接 监听端...
分类:其他好文   时间:2014-07-22 08:01:34    阅读次数:351
Spark快速上手之交互式分析
1.1  Spark交互式分析 运行Spark脚本前,启动Hadoop的HDFS和YARN。Spark的shell提供 了简单方式去识别API,同样也有一个强大的工具去交互式地分析数据。两种语言有这样的交换能力,分别是Scala 和 Python。下面将演示如何使用Python来分析数据文件。 进入Spark安装主目录,输入下面的命令,python命令行模式将会启动。 ./bin/pysp...
分类:其他好文   时间:2014-07-22 00:29:38    阅读次数:239
Spark学习体系
1:Spark生态和安装部署 Spark生态 Spark(内存计算框架) SparkSteaming(流式计算框架) Spark SQL(ad-hoc) Mllib(Machine Learning) GraphX(bagel将被取代) 安装部署 Spark安装简介 Spark的源码编译 Spark Standalone安装 Spark Standalone H...
分类:其他好文   时间:2014-07-22 00:27:35    阅读次数:317
hive 自我介绍
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据...
分类:其他好文   时间:2014-07-22 00:20:35    阅读次数:252
Spark1.0.0伪分布安装指南
?一、下载须知 软件准备: spark-1.0.0-bin-hadoop1.tgz? ?下载地址:spark1.0.0 scala-2.10.4.tgz ? ?下载下载:Scala 2.10.4 hadoop-1.2.1-bin.tar.gz ? 下载地址:hadoop-1.2.1-bin.tar.gz jdk-7u60-li...
分类:其他好文   时间:2014-07-21 23:30:01    阅读次数:525
Hive语法层面优化之一数据倾斜介绍
数据倾斜:数据分布不均匀,造成数据大量的集中到一点,造成数据热点;由于数据并不是平均分配的,会导致各个节点上处理的数据量是不均衡的,所以数据倾斜是无法避免的;造成数据倾斜的最根本原因:key分发不均匀造成的;常见的数据倾斜的症状1) Map阶段快,reduce阶段非常慢;2) 某些map很快,某些m...
分类:其他好文   时间:2014-07-20 22:18:56    阅读次数:232
Hive语法层面优化之四count(distinct)引起的数据倾斜
当该字段存在大量值为null或空的记录,容易发生数据倾斜;解决思路:count distinct时,将值为空的情况单独处理,如果是计算count distinct,可以不用处理,直接过滤,在最后结果中加1;如果还有其他计算,需要进行group by,可以先将值为空的记录单独处理,再和其他计算结果进行...
分类:其他好文   时间:2014-07-20 22:18:35    阅读次数:1404
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!