码迷,mamicode.com
首页 >  
搜索关键字:spark-sql    ( 532个结果
Spark入门到精通--(第九节)环境搭建(Hive搭建)
上一节搭建完了Hadoop集群,这一节我们来搭建Hive集群,主要是后面的Spark SQL要用到Hive的环境。 Hive下载安装 下载Hive 0.13的软件包,可以在百度网盘进行下载。链接: http://pan.baidu.com/s/1gePE9O3 密码: unmt ...
分类:其他好文   时间:2016-08-07 15:15:35    阅读次数:148
Spark生态之Spark SQL
...
分类:数据库   时间:2016-08-02 13:22:33    阅读次数:144
为什么使用 Spark SQL?
简单地说,Shark 的下一代技术 是Spark SQL。 由于 Shark 底层依赖于 Hive,这个架构的优势是对传统 Hive 用户可以将 Shark 无缝集成进现有系统运行查询负载。 但是也看到一些问题:一方面,随着版本升级,查询优化器依赖于 Hive,不方便添加新的优化策略,需要进行另一套 ...
分类:数据库   时间:2016-08-01 12:34:31    阅读次数:380
如何使用 Spark SQL
val sqlContext = new org.apache.spark.sql.SQLContext(sc) // 在这里引入 sqlContext 下所有的方法就可以直接用 sql 方法进行查询 import sqlContext._ case class Person(name: Strin ...
分类:数据库   时间:2016-08-01 12:32:57    阅读次数:303
Spark SQL 优化策略
查询优化是传统数据库中最为重要的一环,这项技术在传统数据库中已经很成熟。除了查询优化, Spark SQL 在存储上也进行了优化,从以下几点查看 Spark SQL 的一些优化策略。 (1)内存列式存储与内存缓存表 Spark SQL 可以通过 cacheTable 将数据存储转换为列式存储,同时将 ...
分类:数据库   时间:2016-08-01 12:15:17    阅读次数:601
Apache Spark SQL的简介
Spark SQL提供在大数据上的SQL查询功能,类似于Shark在整个生态系统的角色,它们可以统称为SQL on Spark。 之前,Shark的查询编译和优化器依赖于Hive,使得Shark不得不维护一套Hive分支,而Spark SQL使用Catalyst做查询解析和优化器,并在底层使用Spa ...
分类:数据库   时间:2016-07-31 22:15:32    阅读次数:226
spark集群与spark HA高可用快速部署 spark研习第一季
1、spark 部署 标签: spark 0 apache spark项目架构 spark SQL -- spark streaming -- MLlib -- GraphX 0.1 hadoop快速搭建,主要利用hdfs存储框架 下载hadoop-2.6.0,解压,到etc/hadoop/目录下 0.2 快速配置文件...
分类:其他好文   时间:2016-07-22 19:23:01    阅读次数:629
Spark 官方文档(5)——Spark SQL,DataFrames和Datasets 指南
Spark版本:1.6.2 概览Spark SQL用于处理结构化数据,与Spark RDD API不同,它提供更多关于数据结构信息和计算任务运行信息的接口,Spark SQL内部使用这些额外的信息完成特殊优化。可以通过SQL、DataFrames API、Datasets API与Spark SQL进行交互,无论使用何种方式,SparkSQL使用统一的执行引擎记性处理。...
分类:数据库   时间:2016-07-21 13:00:22    阅读次数:524
Spark 官方文档(5)——Spark SQL,DataFrames和Datasets 指南
Spark版本:1.6.2 概览 Spark SQL用于处理结构化数据,与Spark RDD API不同,它提供更多关于数据结构信息和计算任务运行信息的接口,Spark SQL内部使用这些额外的信息完成特殊优化。可以通过SQL、DataFrames API、Datasets API与Spark SQ ...
分类:数据库   时间:2016-07-21 12:24:47    阅读次数:343
Spark学习笔记
Spark 阅读官方文档 Spark Quick Start Spark Programming Guide Spark SQL, DataFrames and Datasets Guide Cluster Mode Overview Spark Standalone Mode 重要的概念:resilient distributed dataset (RDD), a collection...
分类:其他好文   时间:2016-07-15 21:44:33    阅读次数:340
532条   上一页 1 ... 35 36 37 38 39 ... 54 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!