搜索关键字：spark-sql，搜索到532个结果！码迷,mamicode.com！

Spark入门到精通--（第九节）环境搭建（Hive搭建）

上一节搭建完了Hadoop集群，这一节我们来搭建Hive集群，主要是后面的Spark SQL要用到Hive的环境。 Hive下载安装下载Hive 0.13的软件包，可以在百度网盘进行下载。链接: http://pan.baidu.com/s/1gePE9O3 密码: unmt ...

分类：其他好文时间：2016-08-07 15:15:35 阅读次数：148

Spark生态之Spark SQL

...

分类：数据库时间：2016-08-02 13:22:33 阅读次数：144

为什么使用 Spark SQL？

简单地说，Shark 的下一代技术是Spark SQL。由于 Shark 底层依赖于 Hive，这个架构的优势是对传统 Hive 用户可以将 Shark 无缝集成进现有系统运行查询负载。但是也看到一些问题：一方面，随着版本升级，查询优化器依赖于 Hive，不方便添加新的优化策略，需要进行另一套 ...

分类：数据库时间：2016-08-01 12:34:31 阅读次数：380

如何使用 Spark SQL

val sqlContext = new org.apache.spark.sql.SQLContext(sc) // 在这里引入 sqlContext 下所有的方法就可以直接用 sql 方法进行查询 import sqlContext._ case class Person(name: Strin ...

分类：数据库时间：2016-08-01 12:32:57 阅读次数：303

Spark SQL 优化策略

查询优化是传统数据库中最为重要的一环，这项技术在传统数据库中已经很成熟。除了查询优化， Spark SQL 在存储上也进行了优化，从以下几点查看 Spark SQL 的一些优化策略。（1）内存列式存储与内存缓存表 Spark SQL 可以通过 cacheTable 将数据存储转换为列式存储，同时将 ...

分类：数据库时间：2016-08-01 12:15:17 阅读次数：601

Apache Spark SQL的简介

Spark SQL提供在大数据上的SQL查询功能，类似于Shark在整个生态系统的角色，它们可以统称为SQL on Spark。之前，Shark的查询编译和优化器依赖于Hive，使得Shark不得不维护一套Hive分支，而Spark SQL使用Catalyst做查询解析和优化器，并在底层使用Spa ...

分类：数据库时间：2016-07-31 22:15:32 阅读次数：226

spark集群与spark HA高可用快速部署 spark研习第一季

1、spark 部署标签： spark 0 apache spark项目架构 spark SQL -- spark streaming -- MLlib -- GraphX 0.1 hadoop快速搭建，主要利用hdfs存储框架下载hadoop-2.6.0，解压，到etc/hadoop/目录下 0.2 快速配置文件...

分类：其他好文时间：2016-07-22 19:23:01 阅读次数：629

Spark 官方文档（5）——Spark SQL，DataFrames和Datasets 指南

Spark版本：1.6.2 概览Spark SQL用于处理结构化数据，与Spark RDD API不同，它提供更多关于数据结构信息和计算任务运行信息的接口，Spark SQL内部使用这些额外的信息完成特殊优化。可以通过SQL、DataFrames API、Datasets API与Spark SQL进行交互，无论使用何种方式，SparkSQL使用统一的执行引擎记性处理。...

分类：数据库时间：2016-07-21 13:00:22 阅读次数：524

Spark 官方文档（5）——Spark SQL，DataFrames和Datasets 指南

Spark版本：1.6.2 概览 Spark SQL用于处理结构化数据，与Spark RDD API不同，它提供更多关于数据结构信息和计算任务运行信息的接口，Spark SQL内部使用这些额外的信息完成特殊优化。可以通过SQL、DataFrames API、Datasets API与Spark SQ ...

分类：数据库时间：2016-07-21 12:24:47 阅读次数：343

Spark学习笔记

Spark 阅读官方文档 Spark Quick Start Spark Programming Guide Spark SQL, DataFrames and Datasets Guide Cluster Mode Overview Spark Standalone Mode 重要的概念：resilient distributed dataset (RDD), a collection...

分类：其他好文时间：2016-07-15 21:44:33 阅读次数：340

共532条上一页 1 ... 35 36 37 38 39 ... 54 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)