搜索关键字：sparksql，搜索到306个结果！码迷,mamicode.com！

SparkSQL程序设计

1、创建Spark Session 2、将RDD隐式转换为DataFrame import spark.implicits._ 3、SparkSession 介绍 spark中包含 sparkContext和 sqlContext两个对象 sparkContext 是操作 RDD 的 sqlCont ...

分类：数据库时间：2017-08-26 22:48:53 阅读次数：271

Spark SQL中的几种join

1.小表对大表（broadcast join）将小表的数据分发到每个节点上，供大表使用。executor存储小表的全部数据，一定程度上牺牲了空间，换取shuffle操作大量的耗时，这在SparkSQL中称作Broadcast Join Broadcast Join的条件有以下几个： *被广播的表需 ...

分类：数据库时间：2017-08-23 15:01:09 阅读次数：195

sparkSQL中RDD——DataFrame——DataSet的区别

spark中RDD、DataFrame、DataSet都是spark的数据集合抽象，RDD针对的是一个个对象,但是DF与DS中针对的是一个个Row RDD 优点: 编译时类型安全编译时就能检查出类型错误面向对象的编程风格直接通过类名点的方式来操作数据缺点: 序列化和反序列化的性能开销无论是 ...

分类：数据库时间：2017-08-09 00:14:59 阅读次数：280

使用Spark下的corr计算皮尔森相似度Pearson时，报错Can only zip RDDs with same number of elements in each partition....

实现代码如上，因为Statistics.corr（RDD[Double],RDD[Double]）,所以SparkSQL读取后的数据生成的dataFrame必须转换，第一步是转换成RDD[Row],Row就相当于sql查询出来的一条数据，这里也转换过多次才成功，最后百度得到可以先.cast(Doub ...

分类：其他好文时间：2017-08-07 11:54:15 阅读次数：650

spark 运维实战简介

Spark大数据计算框架、架构、计算模型和数据管理策略及Spark在工业界的应用。围绕Spark的BDAS项目及其子项目进行了简要介绍。目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含SparkSQL、SparkStreaming、GraphX、MLlib等子项目，本章只进行简要介绍，后续章..

分类：其他好文时间：2017-07-07 20:18:35 阅读次数：128

SparkSql之DataFrame操作

Spark SQL中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作，在DataFrame中都可以通过调用其API接口来实现。可以参考，Scala提供的DataFrame API。本文中的代码基于Spark-1.6.2的文档实现。一、DataFrame对象的生成 ...

分类：数据库时间：2017-07-06 16:58:40 阅读次数：641

sparkSQL中udf的使用

在Spark中使用sql时一些功能需要自定义方法实现，这时候就可以使用UDF功能来实现多参数支持 UDF不支持参数*的方式输入多个参数，例如String*，不过可以使用array来解决这个问题。定义udf方法，此处功能是将多个字段合并为一个字段在sql中使用在DataFrame中使用 ...

分类：数据库时间：2017-07-03 23:44:42 阅读次数：279

Spark SQL

和Hive SQL演变而来，有很多相似之处；挖坑待做； Spark入门之五：SparkSQL的原理以及架构 ...

分类：数据库时间：2017-07-03 00:57:27 阅读次数：184

SparkSQL---实战应用

SparkSQL 实战应用数据集：http://grouplens.org/datasets/movielens/ MovieLens 1M Datase 相关数据文件： users.dat UserID::Gender::Age::Occupation::Zip-code movies.da ...

分类：数据库时间：2017-07-02 14:23:53 阅读次数：199

基于sparksql调用shell脚本运行SQL

[Author]: kwu 基于sparksql调用shell脚本运行SQL，sparksql提供了类似hive中的 -e , -f ,-i的选项 1、定时调用脚本 #!/bin/sh # upload logs to hdfs yesterday=`date --date='1 days ago' ...

分类：数据库时间：2017-06-19 09:52:08 阅读次数：414

共306条上一页 1 ... 18 19 20 21 22 ... 31 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)