码迷,mamicode.com
首页 >  
搜索关键字:sparksql hivecontext    ( 324个结果
Spark 分布式SQL引擎
SparkSQL作为分布式查询引擎:两种方式 SparkSQL作为分布式查询引擎:Thrift JDBC/ODBC服务 SparkSQL作为分布式查询引擎:Thrift JDBC/ODBC服务 SparkSQL作为分布式查询引擎: beeline SparkSQL作为分布式查询引擎: Spark S ...
分类:数据库   时间:2017-09-02 16:46:37    阅读次数:237
spark SQL概述
Spark SQL是什么? 何为结构化数据 sparkSQL与spark Core的关系 Spark SQL的前世今生:由Shark发展而来 Spark SQL的前世今生:可以追溯到Hive Spark SQL的前世今生:Hive 到Shark(在Hive上做改进) Spark SQL的前世今生:S ...
分类:数据库   时间:2017-08-31 00:15:26    阅读次数:256
SparkSQL程序设计
1、创建Spark Session 2、将RDD隐式转换为DataFrame import spark.implicits._ 3、SparkSession 介绍 spark中包含 sparkContext和 sqlContext两个对象 sparkContext 是操作 RDD 的 sqlCont ...
分类:数据库   时间:2017-08-26 22:48:53    阅读次数:271
Spark SQL中的几种join
1.小表对大表(broadcast join) 将小表的数据分发到每个节点上,供大表使用。executor存储小表的全部数据,一定程度上牺牲了空间,换取shuffle操作大量的耗时,这在SparkSQL中称作Broadcast Join Broadcast Join的条件有以下几个: *被广播的表需 ...
分类:数据库   时间:2017-08-23 15:01:09    阅读次数:195
sparkSQL中RDD——DataFrame——DataSet的区别
spark中RDD、DataFrame、DataSet都是spark的数据集合抽象,RDD针对的是一个个对象,但是DF与DS中针对的是一个个Row RDD 优点: 编译时类型安全 编译时就能检查出类型错误 面向对象的编程风格 直接通过类名点的方式来操作数据 缺点: 序列化和反序列化的性能开销 无论是 ...
分类:数据库   时间:2017-08-09 00:14:59    阅读次数:280
使用Spark下的corr计算皮尔森相似度Pearson时,报错Can only zip RDDs with same number of elements in each partition....
实现代码如上,因为Statistics.corr(RDD[Double],RDD[Double]),所以SparkSQL读取后的数据生成的dataFrame必须转换,第一步是转换成RDD[Row],Row就相当于sql查询出来的一条数据,这里也转换过多次才成功,最后百度得到可以先.cast(Doub ...
分类:其他好文   时间:2017-08-07 11:54:15    阅读次数:650
spark 运维实战 简介
Spark大数据计算框架、架构、计算模型和数据管理策略及Spark在工业界的应用。围绕Spark的BDAS项目及其子项目进行了简要介绍。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、SparkStreaming、GraphX、MLlib等子项目,本章只进行简要介绍,后续章..
分类:其他好文   时间:2017-07-07 20:18:35    阅读次数:128
SparkSql之DataFrame操作
Spark SQL中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作,在DataFrame中都可以通过调用其API接口来实现。可以参考,Scala提供的DataFrame API。 本文中的代码基于Spark-1.6.2的文档实现。 一、DataFrame对象的生成 ...
分类:数据库   时间:2017-07-06 16:58:40    阅读次数:641
sparkSQL中udf的使用
在Spark中使用sql时一些功能需要自定义方法实现,这时候就可以使用UDF功能来实现 多参数支持 UDF不支持参数*的方式输入多个参数,例如String*,不过可以使用array来解决这个问题。 定义udf方法,此处功能是将多个字段合并为一个字段 在sql中使用 在DataFrame中使用 ...
分类:数据库   时间:2017-07-03 23:44:42    阅读次数:279
Spark SQL
和Hive SQL演变而来,有很多相似之处; 挖坑待做; Spark入门之五:SparkSQL的原理以及架构 ...
分类:数据库   时间:2017-07-03 00:57:27    阅读次数:184
324条   上一页 1 ... 19 20 21 22 23 ... 33 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!