我们知道在Spark中可以通过start-thriftServer.sh 来启动ThriftServer,之后并可以通过beeline或者JDBC来连接并执行Spark SQL。在一般的Spark应用中,通常并不希望另外起一个服务进程,自然就要问:可以在Spark dirver program里启一 ...
分类:
其他好文 时间:
2016-07-12 19:05:50
阅读次数:
137
背景随着大数据时代的到来,越来越多的数据流向了Hadoop生态圈,同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要,在Hadoop生态圈的快速发展过程中,涌现了一批开源的数据分析引擎,例如Hive、Spark SQL、Impala、Presto等,同时也产生了多个高性能的列式存储格式,例如RCFile、ORC、Parquet等,本文主要从实现的角度上对比分析...
分类:
其他好文 时间:
2016-07-10 18:54:37
阅读次数:
650
sparkSQL 1、主要的数据结构 DataFreames 2、开始使用:SQLContext 创建步骤: Val sc:sparkContext Val sqlContext=new org.apache.spark.sql.SQLContext(sc) Import sqlContext.im ...
分类:
数据库 时间:
2016-07-09 23:45:18
阅读次数:
211
为什么说Spark SQL远远超越了MPP SQL 前言 这里说的并不是性能,因为我没尝试对比过(下文会有简单的说明),而是尝试从某种更高一层次的的角度去看,为什么Spark SQL 是远远超越MPP SQL的。 Spark SQL 和 MPP SQL 其实不在一个维度上。简而言之, MPP SQL ...
分类:
数据库 时间:
2016-07-06 18:14:06
阅读次数:
196
Spark SQL是Spark的一个模块,用于结构化数据处理。它提供了一个编程的抽象被称为DataFrames,也可以作为分布式SQL查询引擎。
概述(Overview)
Spark SQL是Spark的一个模块,用于结构化数据处理。它提供了一个编程的抽象被称为DataFrames,也可以作为分布式SQL查询引擎。
开始Spark SQL
Spark SQL中所有功能的入口点是SQLContext类,或者它子类中的一个。为了创建一个基本的SQLCont...
分类:
数据库 时间:
2016-06-07 13:13:25
阅读次数:
353
一,测试环境 1) 硬件环境完全相同: 包括:cpu/内存/网络/磁盘Io/机器数量等 2)软件环境: 相同数据 相同测试用例 3) 不同计算框架,其中spark-sql 都是基于yarn的 4)spark-sql executor内存总量不大于 hive使用内存峰值 二,不同框架在两个测试用例下的 ...
分类:
数据库 时间:
2016-06-06 16:56:54
阅读次数:
761
1. SPARK CONF中添加hive-site.xml hive.metastore.uris thrift://master:9083 2. 启动hive元数据 hive --metastore >meta.log 2>&1 & 3. scala>val hiveContext = new o ...
分类:
数据库 时间:
2016-06-05 13:56:52
阅读次数:
249
一:Hive本质是是什么 1:hive是分布式又是数据仓库,同时又是查询引擎,Spark SQL只是取代的HIVE的查询引擎这一部分,企业一般使用Hive+spark SQL进行开发 2:hive的主要工作 1> 把HQL翻译长map-reduce的代码,并且有可能产生很多mapreduce的job ...
分类:
其他好文 时间:
2016-06-05 12:34:55
阅读次数:
181
com.esotericsoftware.kryo.KryoException: java.lang.NullPointerExceptionSerialization trace:underlying (org.apache.spark.util.BoundedPriorityQueue) at ...
分类:
数据库 时间:
2016-05-24 11:50:56
阅读次数:
439
聚焦在 Twitter 上关于Apache Spark的数据, 这些是准备用于机器学习和流式处理应用的数据。 重点是如何通过分布式网络交换代码和数据,获得 串行化, 持久化 , 调度和缓存的实战经验 。 认真使用 Spark SQL, 交互性探索结构化和半结构化数据. Spark SQL 的基础数据结构是?Spark dataframe, Spark dataframe 受到了...
分类:
编程语言 时间:
2016-05-22 12:21:51
阅读次数:
370