sparkSQL在使用cache缓存的时候,有时候缓存可能不起作用,可能会发出缓存是假的吧的感慨。现在我们就把这个问题说道说道。
分类:
数据库 时间:
2018-07-12 18:04:26
阅读次数:
338
由于我要叠加rdd某列的数据,如果加数中出现nan,结果也需要是nan,nan可以做到,但我要处理的数据源中的nan是以null的形式出现的,null不能叠加,而且我也不能删掉含null的行,于是我用了sparksql 的 ISNULL和CASE WHEN方法: Case When 方法: 如果ob ...
分类:
其他好文 时间:
2018-07-09 19:15:05
阅读次数:
484
构造以spark为核心的数据仓库: 0.说明 在大数据领域,hive作为老牌的数据仓库比较流行,spark可以考虑兼容hive。但是如果不想用hive做数据仓库也无妨,大不了我们用spark建立最新的数据仓库。 sparkSQL的发展历程表明了,spark本身就可以做数据仓库,而不需要hive。sp ...
分类:
数据库 时间:
2018-06-22 22:44:43
阅读次数:
268
SparkSQL数据源:从各种数据源创建DataFrame 因为 spark sql,dataframe,datasets 都是共用 spark sql 这个库的,三者共享同样的代码优化,生成以及执行流程,所以 sql,dataframe,datasets 的入口都是 sqlContext。 可用于 ...
分类:
数据库 时间:
2018-06-15 20:06:26
阅读次数:
189
本文来自 网易云社区 。 Join操作是数据库和大数据计算中的高级特性,大多数场景都需要进行复杂的Join操作,本文从原理层面介绍了SparkSQL支持的常见Join算法及其适用场景。 Join背景介绍 Join是数据库查询永远绕不开的话题,传统查询SQL技术总体可以分为简单操作(过滤操作-wher ...
分类:
数据库 时间:
2018-06-01 15:32:57
阅读次数:
189
一、SparkCore、SparkSQL和SparkStreaming的类似之处 二、SparkStreaming的运行流程 2.1 图解说明 2.2 文字解说 1、我们在集群中的其中一台机器上提交我们的Application Jar,然后就会产生一个Application,开启一个Driver,然 ...
分类:
其他好文 时间:
2018-05-16 19:49:37
阅读次数:
151
以上是我们常用的dataframe的基础操作 具体见一下博客 https://blog.csdn.net/dabokele/article/details/52802150 SparkSQL官网 http://spark.apache.org/docs/1.6.2/api/scala/index.h ...
分类:
数据库 时间:
2018-05-16 13:17:24
阅读次数:
160
toDF()创建、createDataFrame()创建以及读取文件创建 ...
分类:
数据库 时间:
2018-05-15 14:01:21
阅读次数:
205
本文由 网易云 发布。 作者:范欣欣(本篇文章仅限知乎内部分享,如需转载,请取得作者同意授权。) 最近想来,大数据相关技术与传统型数据库技术很多都是相互融合、互相借鉴的。传统型数据库强势在于其久经考验的SQL优化器经验,弱势在于分布式领域的高可用性、容错性、扩展性等,假以时日,让其经过一定的改造,比 ...
分类:
数据库 时间:
2018-05-07 19:47:09
阅读次数:
251
?机器学习——逻辑回归 ALS音乐推荐(上) Deep Learning(深度学习)学习笔记之系列(一) 深度学习(Deep Learning)资料大全(不断更新) SparkSQL—用之惜之 Spark系列1:开篇之组件云集 HDFS架构及原理 大数据家族成员概述 ...
分类:
其他好文 时间:
2018-05-06 14:46:31
阅读次数:
165