码迷,mamicode.com
首页 >  
搜索关键字:spark-sql    ( 532个结果
嵌入式 ThriftServer in Spark
我们知道在Spark中可以通过start-thriftServer.sh 来启动ThriftServer,之后并可以通过beeline或者JDBC来连接并执行Spark SQL。在一般的Spark应用中,通常并不希望另外起一个服务进程,自然就要问:可以在Spark dirver program里启一 ...
分类:其他好文   时间:2016-07-12 19:05:50    阅读次数:137
Parquet与ORC:高性能列式存储格式
背景随着大数据时代的到来,越来越多的数据流向了Hadoop生态圈,同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要,在Hadoop生态圈的快速发展过程中,涌现了一批开源的数据分析引擎,例如Hive、Spark SQL、Impala、Presto等,同时也产生了多个高性能的列式存储格式,例如RCFile、ORC、Parquet等,本文主要从实现的角度上对比分析...
分类:其他好文   时间:2016-07-10 18:54:37    阅读次数:650
sparkSQL随笔
sparkSQL 1、主要的数据结构 DataFreames 2、开始使用:SQLContext 创建步骤: Val sc:sparkContext Val sqlContext=new org.apache.spark.sql.SQLContext(sc) Import sqlContext.im ...
分类:数据库   时间:2016-07-09 23:45:18    阅读次数:211
Spark SQL远远超越了MPP SQL是真的么
为什么说Spark SQL远远超越了MPP SQL 前言 这里说的并不是性能,因为我没尝试对比过(下文会有简单的说明),而是尝试从某种更高一层次的的角度去看,为什么Spark SQL 是远远超越MPP SQL的。 Spark SQL 和 MPP SQL 其实不在一个维度上。简而言之, MPP SQL ...
分类:数据库   时间:2016-07-06 18:14:06    阅读次数:196
Spark(1.6.1) Sql 编程指南+实战案例分析
Spark SQL是Spark的一个模块,用于结构化数据处理。它提供了一个编程的抽象被称为DataFrames,也可以作为分布式SQL查询引擎。 概述(Overview) Spark SQL是Spark的一个模块,用于结构化数据处理。它提供了一个编程的抽象被称为DataFrames,也可以作为分布式SQL查询引擎。 开始Spark SQL Spark SQL中所有功能的入口点是SQLContext类,或者它子类中的一个。为了创建一个基本的SQLCont...
分类:数据库   时间:2016-06-07 13:13:25    阅读次数:353
spark-sql性能测试
一,测试环境 1) 硬件环境完全相同: 包括:cpu/内存/网络/磁盘Io/机器数量等 2)软件环境: 相同数据 相同测试用例 3) 不同计算框架,其中spark-sql 都是基于yarn的 4)spark-sql executor内存总量不大于 hive使用内存峰值 二,不同框架在两个测试用例下的 ...
分类:数据库   时间:2016-06-06 16:56:54    阅读次数:761
Spark SQL on HIVE
1. SPARK CONF中添加hive-site.xml hive.metastore.uris thrift://master:9083 2. 启动hive元数据 hive --metastore >meta.log 2>&1 & 3. scala>val hiveContext = new o ...
分类:数据库   时间:2016-06-05 13:56:52    阅读次数:249
spark hive区别
一:Hive本质是是什么 1:hive是分布式又是数据仓库,同时又是查询引擎,Spark SQL只是取代的HIVE的查询引擎这一部分,企业一般使用Hive+spark SQL进行开发 2:hive的主要工作 1> 把HQL翻译长map-reduce的代码,并且有可能产生很多mapreduce的job ...
分类:其他好文   时间:2016-06-05 12:34:55    阅读次数:181
Spark 2.0.0 SPARK-SQL returns NPE Error
com.esotericsoftware.kryo.KryoException: java.lang.NullPointerExceptionSerialization trace:underlying (org.apache.spark.util.BoundedPriorityQueue) at ...
分类:数据库   时间:2016-05-24 11:50:56    阅读次数:439
地铁译:Spark for python developers ---Spark的数据戏法
聚焦在 Twitter 上关于Apache Spark的数据, 这些是准备用于机器学习和流式处理应用的数据。 重点是如何通过分布式网络交换代码和数据,获得 串行化, 持久化 , 调度和缓存的实战经验 。 认真使用 Spark SQL, 交互性探索结构化和半结构化数据. Spark SQL 的基础数据结构是?Spark dataframe, Spark dataframe 受到了...
分类:编程语言   时间:2016-05-22 12:21:51    阅读次数:370
532条   上一页 1 ... 36 37 38 39 40 ... 54 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!