码迷,mamicode.com
首页 >  
搜索关键字:RDD    ( 1327个结果
spark-sql的概述以及编程模型的介绍
1、sparksql的概述(1)sparksql的介绍:  SparkSQL是Spark用来处理结构化数据(结构化数据可以来自外部结构化数据源也可以通过RDD获取)的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。  外部的结构化数据源包括JSON、Parquet(默认)、RMDBS、Hive等。当前SparkSQL使
分类:数据库   时间:2019-01-05 13:37:33    阅读次数:251
spark调优之开发调优
(1)避免重复的RDD案例:valrdd1=sc.textFile("hdfs://zzy/hello.txt")rdd1.map(...)valrdd2=sc.textFile("hdfs://zzy/hello.txt")rdd2.reduce(...)这里条用了两次textFile,并且读取的是同一个文件,造成了多次的磁盘读取,如果是hi同一个文件,读取一次即可。(2)尽可能多的复用一个RD
分类:其他好文   时间:2019-01-04 12:34:43    阅读次数:148
Spark Core 的RDD
(1)RDD的介绍?????RDD(ResilientDistributedDataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变(RDD中的数据,不能增删改),可分区、元素可并行计算的集合。??具有数据流的模型的特点,自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显示的将工作集缓存在内存中。后续的查询能够重用工作集,这极大地提升了查询速度。??RD
分类:其他好文   时间:2019-01-03 12:09:55    阅读次数:208
spark的持久化和共享变量
1.持久化算子cache  介绍:正常情况下,一个RDD是不包含真实数据的,只包含描述这个RDD元数据信息,如果对这个RDD调用cache方法,那么这个RDD的数据,依然没有真实数据,直到第一次调用一个action的算子触发了这个RDD的数据生成,那么cache操作就会把数据存储在内存中,所以第二次重复利用这个RDD的时候,计算速度将会快很多。其中最主要的储存级别为://不存储
分类:其他好文   时间:2019-01-03 12:00:28    阅读次数:186
spark使用性能优化记录
性能调优: 总则:加资源加并行度 简单直接,调节最优的资源配置 RDD架构和持久化 当可分配的资源无法达到更多的时候在考虑性能调优 从 重剑无锋 到 花拳绣腿 1.分配资源 并行度 RDD架构和缓存 2.shuffle调优 3.spark算子调优 4.JVM调优 、 广播大变量 分配哪些资源:exe ...
分类:其他好文   时间:2019-01-01 15:24:57    阅读次数:225
SparkSQL的执行计划详解
一:首先将我们从文本中读取的数据映射到表也就是视图 eg: $>cat b.txt 1 ded 2 dsfre 3 sfs 4 fr $>val sc = spark.sparkContext #创建SparkContext $>val rdd = sc.textFile("file:///home ...
分类:数据库   时间:2019-01-01 14:07:47    阅读次数:638
DataFrame映射表的形式
使用DF.createTempView("person")对数据集注册临时表 通过spark.sql(.....) 代码说明: df_rdd.createTempView("person") spark.sql("select * from person where name like '%0%'" ...
分类:其他好文   时间:2019-01-01 13:23:28    阅读次数:193
查看spark RDD 各分区内容
mapPartitionsWithIndexdef mapPartitionsWithIndex[U](f: (Int, Iterator[T]) => Iterator[U], preservesPartitioning: Boolean = false)(implicit arg0: Class ...
分类:其他好文   时间:2018-12-31 19:44:56    阅读次数:138
Spark SQL的介绍和DataFrame的建立及使用
1. Spark SQL定位处理结构化数据的模块。SparkSQL提供相应的优化机制,并支持不同语言的开发API。 java、scala、Python,类SQL的方法调用(DSL) 2. RDD与Spark SQL的比较说明: 使用Spark SQL的优势:a.面向结构化数据;b.优化机制; RDD ...
分类:数据库   时间:2018-12-31 17:28:16    阅读次数:235
【原创】大数据基础之Spark(7)spark读取文件split过程(即RDD分区数量)
spark 2.1.1 spark初始化rdd的时候,需要读取文件,通常是hdfs文件,在读文件的时候可以指定最小partition数量,这里只是建议的数量,实际可能比这个要大(比如文件特别多或者特别大时),也可能比这个要小(比如文件只有一个而且很小时),如果没有指定最小partition数量,初始 ...
分类:其他好文   时间:2018-12-28 21:13:37    阅读次数:214
1327条   上一页 1 ... 41 42 43 44 45 ... 133 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!