搜索关键字：spark-sql，搜索到532个结果！码迷,mamicode.com！

嵌入式 ThriftServer in Spark

我们知道在Spark中可以通过start-thriftServer.sh 来启动ThriftServer，之后并可以通过beeline或者JDBC来连接并执行Spark SQL。在一般的Spark应用中，通常并不希望另外起一个服务进程，自然就要问：可以在Spark dirver program里启一 ...

分类：其他好文时间：2016-07-12 19:05:50 阅读次数：137

Parquet与ORC：高性能列式存储格式

背景随着大数据时代的到来，越来越多的数据流向了Hadoop生态圈，同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要，在Hadoop生态圈的快速发展过程中，涌现了一批开源的数据分析引擎，例如Hive、Spark SQL、Impala、Presto等，同时也产生了多个高性能的列式存储格式，例如RCFile、ORC、Parquet等，本文主要从实现的角度上对比分析...

分类：其他好文时间：2016-07-10 18:54:37 阅读次数：650

sparkSQL随笔

sparkSQL 1、主要的数据结构 DataFreames 2、开始使用：SQLContext 创建步骤： Val sc:sparkContext Val sqlContext=new org.apache.spark.sql.SQLContext(sc) Import sqlContext.im ...

分类：数据库时间：2016-07-09 23:45:18 阅读次数：211

Spark SQL远远超越了MPP SQL是真的么

为什么说Spark SQL远远超越了MPP SQL 前言这里说的并不是性能，因为我没尝试对比过(下文会有简单的说明)，而是尝试从某种更高一层次的的角度去看，为什么Spark SQL 是远远超越MPP SQL的。 Spark SQL 和 MPP SQL 其实不在一个维度上。简而言之， MPP SQL ...

分类：数据库时间：2016-07-06 18:14:06 阅读次数：196

Spark(1.6.1) Sql 编程指南+实战案例分析

Spark SQL是Spark的一个模块，用于结构化数据处理。它提供了一个编程的抽象被称为DataFrames，也可以作为分布式SQL查询引擎。概述(Overview) Spark SQL是Spark的一个模块，用于结构化数据处理。它提供了一个编程的抽象被称为DataFrames，也可以作为分布式SQL查询引擎。开始Spark SQL Spark SQL中所有功能的入口点是SQLContext类，或者它子类中的一个。为了创建一个基本的SQLCont...

分类：数据库时间：2016-06-07 13:13:25 阅读次数：353

spark-sql性能测试

一，测试环境 1）硬件环境完全相同：包括：cpu/内存/网络/磁盘Io/机器数量等 2）软件环境：相同数据相同测试用例 3）不同计算框架，其中spark-sql 都是基于yarn的 4）spark-sql executor内存总量不大于 hive使用内存峰值二，不同框架在两个测试用例下的 ...

分类：数据库时间：2016-06-06 16:56:54 阅读次数：761

Spark SQL on HIVE

1. SPARK CONF中添加hive-site.xml hive.metastore.uris thrift://master:9083 2. 启动hive元数据 hive --metastore >meta.log 2>&1 & 3. scala>val hiveContext = new o ...

分类：数据库时间：2016-06-05 13:56:52 阅读次数：249

spark hive区别

一:Hive本质是是什么 1：hive是分布式又是数据仓库，同时又是查询引擎，Spark SQL只是取代的HIVE的查询引擎这一部分，企业一般使用Hive+spark SQL进行开发 2：hive的主要工作 1> 把HQL翻译长map-reduce的代码，并且有可能产生很多mapreduce的job ...

分类：其他好文时间：2016-06-05 12:34:55 阅读次数：181

Spark 2.0.0 SPARK-SQL returns NPE Error

com.esotericsoftware.kryo.KryoException: java.lang.NullPointerExceptionSerialization trace:underlying (org.apache.spark.util.BoundedPriorityQueue) at ...

分类：数据库时间：2016-05-24 11:50:56 阅读次数：439

地铁译：Spark for python developers ---Spark的数据戏法

聚焦在 Twitter 上关于Apache Spark的数据, 这些是准备用于机器学习和流式处理应用的数据。重点是如何通过分布式网络交换代码和数据，获得串行化, 持久化 , 调度和缓存的实战经验。认真使用 Spark SQL, 交互性探索结构化和半结构化数据. Spark SQL 的基础数据结构是?Spark dataframe， Spark dataframe 受到了...

分类：编程语言时间：2016-05-22 12:21:51 阅读次数：370

共532条上一页 1 ... 36 37 38 39 40 ... 54 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)