搜索关键字：hive on spark，搜索到12366个结果！码迷,mamicode.com！

Apache Spark源码走读之19 -- standalone cluster模式下资源的申请与释放

本文主要讲述在standalone cluster部署模式下，应用(Driver Application)所需要的资源是如何获得，在应用退出时又是如何释放的。

分类：其他好文时间：2014-07-22 22:48:15 阅读次数：243

Hive不支持where子句中的子查询，SQL常用的exist in子句需要改写。这一改写相对简单。考虑以下SQL查询语句：SELECT a.key, a.value FROM a WHERE a.key in (SELECT b.key FROM B);改写成：SELECT a.key, a.va...

分类：数据库时间：2014-07-22 08:07:35 阅读次数：1966

Hive语法层面优化之七数据倾斜总结

关键字情形后果join其中一个表较小，但key集中分发到某一个或几个reduce上的数据远高于平均值大表与大表关联，但是分桶的判断字段0值或空值过多这些空值都由一个reduce处理，非常慢group byGroup by维度过小，某值的数量过多处理某值的reduce非常耗时count distinc...

分类：其他好文时间：2014-07-22 08:07:33 阅读次数：180

Spark源码系列（八）Spark Streaming实例分析

这一章要讲Spark Streaming，讲之前首先回顾下它的用法，具体用法请参照《Spark Streaming编程指南》。Example代码分析val ssc = new StreamingContext(sparkConf, Seconds(1));// 获得一个DStream负责连接监听端...

分类：其他好文时间：2014-07-22 08:01:34 阅读次数：351

Spark快速上手之交互式分析

1.1 Spark交互式分析运行Spark脚本前，启动Hadoop的HDFS和YARN。Spark的shell提供了简单方式去识别API，同样也有一个强大的工具去交互式地分析数据。两种语言有这样的交换能力，分别是Scala 和 Python。下面将演示如何使用Python来分析数据文件。进入Spark安装主目录，输入下面的命令，python命令行模式将会启动。 ./bin/pysp...

分类：其他好文时间：2014-07-22 00:29:38 阅读次数：239

Spark学习体系

1：Spark生态和安装部署 Spark生态 Spark（内存计算框架） SparkSteaming（流式计算框架） Spark SQL（ad-hoc） Mllib（Machine Learning） GraphX（bagel将被取代）安装部署 Spark安装简介 Spark的源码编译 Spark Standalone安装 Spark Standalone H...

分类：其他好文时间：2014-07-22 00:27:35 阅读次数：317

hive 自我介绍

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据...

分类：其他好文时间：2014-07-22 00:20:35 阅读次数：252

Spark1.0.0伪分布安装指南

?一、下载须知软件准备： spark-1.0.0-bin-hadoop1.tgz? ?下载地址：spark1.0.0 scala-2.10.4.tgz ? ?下载下载：Scala 2.10.4 hadoop-1.2.1-bin.tar.gz ? 下载地址：hadoop-1.2.1-bin.tar.gz jdk-7u60-li...

分类：其他好文时间：2014-07-21 23:30:01 阅读次数：525

Hive语法层面优化之一数据倾斜介绍

数据倾斜：数据分布不均匀，造成数据大量的集中到一点，造成数据热点；由于数据并不是平均分配的，会导致各个节点上处理的数据量是不均衡的，所以数据倾斜是无法避免的；造成数据倾斜的最根本原因：key分发不均匀造成的；常见的数据倾斜的症状1) Map阶段快，reduce阶段非常慢；2) 某些map很快，某些m...

分类：其他好文时间：2014-07-20 22:18:56 阅读次数：232

Hive语法层面优化之四count(distinct)引起的数据倾斜

当该字段存在大量值为null或空的记录，容易发生数据倾斜；解决思路：count distinct时，将值为空的情况单独处理，如果是计算count distinct，可以不用处理，直接过滤，在最后结果中加1；如果还有其他计算，需要进行group by，可以先将值为空的记录单独处理，再和其他计算结果进行...

分类：其他好文时间：2014-07-20 22:18:35 阅读次数：1404

共12366条上一页 1 ... 1207 1208 1209 1210 1211 ... 1237 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)