前面介绍了SparkSQL的运行过程,罗列了很多概念很抽象,比如Unresolved LogicPlan、LogicPlan、PhysicalPlan,下面介绍一个工具hive/console,来加深对SparkSQL的运行计划的理解。 另外Spark是一个快速的内存计算框架,同时是一个并行运算的框架,在计算性能调优的时候,除了要考虑广为人知的木桶原理外,还要考虑平行运算的Amdahl定理。...
分类:
数据库 时间:
2015-08-27 11:06:02
阅读次数:
287
【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取1.1 运行环境说明1.1.1硬软件环境l 主机操作系统:Windows 64位,双核4线程,主频2.2G,10G内存l 虚拟软件:VMware® Workstation 9.0.0 build-81238...
分类:
数据库 时间:
2015-08-27 08:15:14
阅读次数:
471
SparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,Hive应运而生。但是,随着Spark的发展,对于野心勃勃的Spark团队来说,Shark对于Hive的太多依赖(如采用Hive的语法解析器、查询优化器等等),制约了Spark的One Stack Rule Them All的既定方针,制约了Spark各个组件的相互集成,所以提出了SparkSQL项目。...
分类:
数据库 时间:
2015-08-26 09:30:54
阅读次数:
416
【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取1、SparkSQL的发展历程1.1Hive and SharkSparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,Hive应运而生,它是当时唯一运...
分类:
数据库 时间:
2015-08-26 09:26:23
阅读次数:
340
1.在IDEA上建立一个sparksql_mysql的scala对象。2.连接mysql的代码如下import java.sql.{DriverManager, PreparedStatement, Connection}import org.apache.spark.rdd.JdbcRDDimpo...
分类:
数据库 时间:
2015-08-19 10:46:20
阅读次数:
207
Sequoiadb作为一个文档型NoSQL数据既可以存储结构化数据也可以存储非结构化数据,对于非结构化数据只能使用原生的API进行查询,对结构化数据我们可以选择使用原生的API和开源SQL引擎,目前PostgresSQL,Hive,SparkSQL都可以作为Sequoiadb的SQL引擎,应用中该如...
分类:
数据库 时间:
2015-08-09 00:24:45
阅读次数:
219
最近使用SparkSQL做数据的打平操作,就是把多个表的数据经过关联操作导入到一个表中,这样数据查询的过程中就不需要在多个表中查询了,在数据量大的情况下,这样大大提高了查询效率。我启动了thriftserver,然后通过beeline去连接thriftserver, 打平操作进行的很顺利,但是在执行...
分类:
其他好文 时间:
2015-08-09 00:24:31
阅读次数:
329
这一两年Spark技术很火,自己也凑热闹,反复的试验、研究,有痛苦万分也有欣喜若狂,抽空把这些整理成文章共享给大家。这个系列基本上围绕了Spark生态圈进行介绍,从Spark的简介、编译、部署,再到编程模型、运行架构,最后介绍其组件SparkSQL、Spark Streaming、Spark MLi...
分类:
其他好文 时间:
2015-08-03 18:23:27
阅读次数:
170
Spark SQL除了使用spark-sql命令进入交互式执行环境之外,还能够使用JDBC/ODBC或命令行接口进行分布式查询,在这个模式下,终端用户或应用可以直接和Spark SQL进行交互式SQL查询而不需要写任何scala代码。...
分类:
数据库 时间:
2015-06-25 09:06:40
阅读次数:
224
将hive-site.xml拷贝到$SPARK_HOME/conf中配置如hive使用mysql一样,注意赋予相应的权限。javax.jdo.option.ConnectionURLjdbc:mysql://xxxx:3306/sparkmetadata?createDatabaseIfNotExist=true启动spark-sql要给driver路径spark-sql
--driver-class-path
/usr/local/spark/spa..
分类:
数据库 时间:
2015-06-23 18:12:40
阅读次数:
174