上一节搭建完了Hadoop集群,这一节我们来搭建Hive集群,主要是后面的Spark SQL要用到Hive的环境。 Hive下载安装 下载Hive 0.13的软件包,可以在百度网盘进行下载。链接: http://pan.baidu.com/s/1gePE9O3 密码: unmt ...
分类:
其他好文 时间:
2016-08-07 15:15:35
阅读次数:
148
简单地说,Shark 的下一代技术 是Spark SQL。 由于 Shark 底层依赖于 Hive,这个架构的优势是对传统 Hive 用户可以将 Shark 无缝集成进现有系统运行查询负载。 但是也看到一些问题:一方面,随着版本升级,查询优化器依赖于 Hive,不方便添加新的优化策略,需要进行另一套 ...
分类:
数据库 时间:
2016-08-01 12:34:31
阅读次数:
380
val sqlContext = new org.apache.spark.sql.SQLContext(sc) // 在这里引入 sqlContext 下所有的方法就可以直接用 sql 方法进行查询 import sqlContext._ case class Person(name: Strin ...
分类:
数据库 时间:
2016-08-01 12:32:57
阅读次数:
303
查询优化是传统数据库中最为重要的一环,这项技术在传统数据库中已经很成熟。除了查询优化, Spark SQL 在存储上也进行了优化,从以下几点查看 Spark SQL 的一些优化策略。 (1)内存列式存储与内存缓存表 Spark SQL 可以通过 cacheTable 将数据存储转换为列式存储,同时将 ...
分类:
数据库 时间:
2016-08-01 12:15:17
阅读次数:
601
Spark SQL提供在大数据上的SQL查询功能,类似于Shark在整个生态系统的角色,它们可以统称为SQL on Spark。 之前,Shark的查询编译和优化器依赖于Hive,使得Shark不得不维护一套Hive分支,而Spark SQL使用Catalyst做查询解析和优化器,并在底层使用Spa ...
分类:
数据库 时间:
2016-07-31 22:15:32
阅读次数:
226
1、spark 部署
标签: spark
0 apache spark项目架构
spark SQL -- spark streaming -- MLlib -- GraphX
0.1 hadoop快速搭建,主要利用hdfs存储框架
下载hadoop-2.6.0,解压,到etc/hadoop/目录下
0.2 快速配置文件...
分类:
其他好文 时间:
2016-07-22 19:23:01
阅读次数:
629
Spark版本:1.6.2
概览Spark SQL用于处理结构化数据,与Spark RDD API不同,它提供更多关于数据结构信息和计算任务运行信息的接口,Spark SQL内部使用这些额外的信息完成特殊优化。可以通过SQL、DataFrames API、Datasets API与Spark SQL进行交互,无论使用何种方式,SparkSQL使用统一的执行引擎记性处理。...
分类:
数据库 时间:
2016-07-21 13:00:22
阅读次数:
524
Spark版本:1.6.2 概览 Spark SQL用于处理结构化数据,与Spark RDD API不同,它提供更多关于数据结构信息和计算任务运行信息的接口,Spark SQL内部使用这些额外的信息完成特殊优化。可以通过SQL、DataFrames API、Datasets API与Spark SQ ...
分类:
数据库 时间:
2016-07-21 12:24:47
阅读次数:
343
Spark
阅读官方文档
Spark Quick Start
Spark Programming Guide
Spark SQL, DataFrames and Datasets Guide
Cluster Mode Overview
Spark Standalone Mode
重要的概念:resilient distributed dataset (RDD), a collection...
分类:
其他好文 时间:
2016-07-15 21:44:33
阅读次数:
340