本文主要讲述在standalone cluster部署模式下,应用(Driver Application)所需要的资源是如何获得,在应用退出时又是如何释放的。
分类:
其他好文 时间:
2014-07-22 22:48:15
阅读次数:
243
Hive不支持where子句中的子查询,SQL常用的exist in子句需要改写。这一改写相对简单。考虑以下SQL查询语句:SELECT a.key, a.value FROM a WHERE a.key in (SELECT b.key FROM B);改写成:SELECT a.key, a.va...
分类:
数据库 时间:
2014-07-22 08:07:35
阅读次数:
1966
关键字情形后果join其中一个表较小,但key集中分发到某一个或几个reduce上的数据远高于平均值大表与大表关联,但是分桶的判断字段0值或空值过多这些空值都由一个reduce处理,非常慢group byGroup by维度过小,某值的数量过多处理某值的reduce非常耗时count distinc...
分类:
其他好文 时间:
2014-07-22 08:07:33
阅读次数:
180
这一章要讲Spark Streaming,讲之前首先回顾下它的用法,具体用法请参照《Spark Streaming编程指南》。Example代码分析val ssc = new StreamingContext(sparkConf, Seconds(1));// 获得一个DStream负责连接 监听端...
分类:
其他好文 时间:
2014-07-22 08:01:34
阅读次数:
351
1.1 Spark交互式分析
运行Spark脚本前,启动Hadoop的HDFS和YARN。Spark的shell提供
了简单方式去识别API,同样也有一个强大的工具去交互式地分析数据。两种语言有这样的交换能力,分别是Scala 和 Python。下面将演示如何使用Python来分析数据文件。
进入Spark安装主目录,输入下面的命令,python命令行模式将会启动。
./bin/pysp...
分类:
其他好文 时间:
2014-07-22 00:29:38
阅读次数:
239
1:Spark生态和安装部署
Spark生态
Spark(内存计算框架)
SparkSteaming(流式计算框架)
Spark SQL(ad-hoc)
Mllib(Machine Learning)
GraphX(bagel将被取代)
安装部署
Spark安装简介
Spark的源码编译
Spark Standalone安装
Spark Standalone H...
分类:
其他好文 时间:
2014-07-22 00:27:35
阅读次数:
317
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据...
分类:
其他好文 时间:
2014-07-22 00:20:35
阅读次数:
252
?一、下载须知 软件准备: spark-1.0.0-bin-hadoop1.tgz? ?下载地址:spark1.0.0 scala-2.10.4.tgz ? ?下载下载:Scala 2.10.4 hadoop-1.2.1-bin.tar.gz ? 下载地址:hadoop-1.2.1-bin.tar.gz jdk-7u60-li...
分类:
其他好文 时间:
2014-07-21 23:30:01
阅读次数:
525
数据倾斜:数据分布不均匀,造成数据大量的集中到一点,造成数据热点;由于数据并不是平均分配的,会导致各个节点上处理的数据量是不均衡的,所以数据倾斜是无法避免的;造成数据倾斜的最根本原因:key分发不均匀造成的;常见的数据倾斜的症状1) Map阶段快,reduce阶段非常慢;2) 某些map很快,某些m...
分类:
其他好文 时间:
2014-07-20 22:18:56
阅读次数:
232
当该字段存在大量值为null或空的记录,容易发生数据倾斜;解决思路:count distinct时,将值为空的情况单独处理,如果是计算count distinct,可以不用处理,直接过滤,在最后结果中加1;如果还有其他计算,需要进行group by,可以先将值为空的记录单独处理,再和其他计算结果进行...
分类:
其他好文 时间:
2014-07-20 22:18:35
阅读次数:
1404