1、sparksql的概述(1)sparksql的介绍: SparkSQL是Spark用来处理结构化数据(结构化数据可以来自外部结构化数据源也可以通过RDD获取)的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 外部的结构化数据源包括JSON、Parquet(默认)、RMDBS、Hive等。当前SparkSQL使
分类:
数据库 时间:
2019-01-05 13:37:33
阅读次数:
251
(1)避免重复的RDD案例:valrdd1=sc.textFile("hdfs://zzy/hello.txt")rdd1.map(...)valrdd2=sc.textFile("hdfs://zzy/hello.txt")rdd2.reduce(...)这里条用了两次textFile,并且读取的是同一个文件,造成了多次的磁盘读取,如果是hi同一个文件,读取一次即可。(2)尽可能多的复用一个RD
分类:
其他好文 时间:
2019-01-04 12:34:43
阅读次数:
148
(1)RDD的介绍?????RDD(ResilientDistributedDataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变(RDD中的数据,不能增删改),可分区、元素可并行计算的集合。??具有数据流的模型的特点,自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显示的将工作集缓存在内存中。后续的查询能够重用工作集,这极大地提升了查询速度。??RD
分类:
其他好文 时间:
2019-01-03 12:09:55
阅读次数:
208
1.持久化算子cache 介绍:正常情况下,一个RDD是不包含真实数据的,只包含描述这个RDD元数据信息,如果对这个RDD调用cache方法,那么这个RDD的数据,依然没有真实数据,直到第一次调用一个action的算子触发了这个RDD的数据生成,那么cache操作就会把数据存储在内存中,所以第二次重复利用这个RDD的时候,计算速度将会快很多。其中最主要的储存级别为://不存储
分类:
其他好文 时间:
2019-01-03 12:00:28
阅读次数:
186
性能调优: 总则:加资源加并行度 简单直接,调节最优的资源配置 RDD架构和持久化 当可分配的资源无法达到更多的时候在考虑性能调优 从 重剑无锋 到 花拳绣腿 1.分配资源 并行度 RDD架构和缓存 2.shuffle调优 3.spark算子调优 4.JVM调优 、 广播大变量 分配哪些资源:exe ...
分类:
其他好文 时间:
2019-01-01 15:24:57
阅读次数:
225
一:首先将我们从文本中读取的数据映射到表也就是视图 eg: $>cat b.txt 1 ded 2 dsfre 3 sfs 4 fr $>val sc = spark.sparkContext #创建SparkContext $>val rdd = sc.textFile("file:///home ...
分类:
数据库 时间:
2019-01-01 14:07:47
阅读次数:
638
使用DF.createTempView("person")对数据集注册临时表 通过spark.sql(.....) 代码说明: df_rdd.createTempView("person") spark.sql("select * from person where name like '%0%'" ...
分类:
其他好文 时间:
2019-01-01 13:23:28
阅读次数:
193
mapPartitionsWithIndexdef mapPartitionsWithIndex[U](f: (Int, Iterator[T]) => Iterator[U], preservesPartitioning: Boolean = false)(implicit arg0: Class ...
分类:
其他好文 时间:
2018-12-31 19:44:56
阅读次数:
138
1. Spark SQL定位处理结构化数据的模块。SparkSQL提供相应的优化机制,并支持不同语言的开发API。 java、scala、Python,类SQL的方法调用(DSL) 2. RDD与Spark SQL的比较说明: 使用Spark SQL的优势:a.面向结构化数据;b.优化机制; RDD ...
分类:
数据库 时间:
2018-12-31 17:28:16
阅读次数:
235
spark 2.1.1 spark初始化rdd的时候,需要读取文件,通常是hdfs文件,在读文件的时候可以指定最小partition数量,这里只是建议的数量,实际可能比这个要大(比如文件特别多或者特别大时),也可能比这个要小(比如文件只有一个而且很小时),如果没有指定最小partition数量,初始 ...
分类:
其他好文 时间:
2018-12-28 21:13:37
阅读次数:
214