搜索关键字：RDD，搜索到1327个结果！码迷,mamicode.com！

spark-sql的概述以及编程模型的介绍

1、sparksql的概述（1）sparksql的介绍： SparkSQL是Spark用来处理结构化数据（结构化数据可以来自外部结构化数据源也可以通过RDD获取）的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。外部的结构化数据源包括JSON、Parquet(默认)、RMDBS、Hive等。当前SparkSQL使

分类：数据库时间：2019-01-05 13:37:33 阅读次数：251

spark调优之开发调优

（1）避免重复的RDD案例：valrdd1=sc.textFile("hdfs://zzy/hello.txt")rdd1.map(...)valrdd2=sc.textFile("hdfs://zzy/hello.txt")rdd2.reduce(...)这里条用了两次textFile，并且读取的是同一个文件，造成了多次的磁盘读取，如果是hi同一个文件，读取一次即可。（2）尽可能多的复用一个RD

分类：其他好文时间：2019-01-04 12:34:43 阅读次数：148

Spark Core 的RDD

(1)RDD的介绍?????RDD(ResilientDistributedDataset)叫做分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变（RDD中的数据，不能增删改），可分区、元素可并行计算的集合。??具有数据流的模型的特点，自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显示的将工作集缓存在内存中。后续的查询能够重用工作集，这极大地提升了查询速度。??RD

分类：其他好文时间：2019-01-03 12:09:55 阅读次数：208

spark的持久化和共享变量

1.持久化算子cache 介绍：正常情况下，一个RDD是不包含真实数据的，只包含描述这个RDD元数据信息，如果对这个RDD调用cache方法，那么这个RDD的数据，依然没有真实数据，直到第一次调用一个action的算子触发了这个RDD的数据生成，那么cache操作就会把数据存储在内存中，所以第二次重复利用这个RDD的时候，计算速度将会快很多。其中最主要的储存级别为：//不存储

分类：其他好文时间：2019-01-03 12:00:28 阅读次数：186

spark使用性能优化记录

性能调优：总则：加资源加并行度简单直接，调节最优的资源配置 RDD架构和持久化当可分配的资源无法达到更多的时候在考虑性能调优从重剑无锋到花拳绣腿 1.分配资源并行度 RDD架构和缓存 2.shuffle调优 3.spark算子调优 4.JVM调优、广播大变量分配哪些资源：exe ...

分类：其他好文时间：2019-01-01 15:24:57 阅读次数：225

SparkSQL的执行计划详解

一：首先将我们从文本中读取的数据映射到表也就是视图 eg: $>cat b.txt 1 ded 2 dsfre 3 sfs 4 fr $>val sc = spark.sparkContext #创建SparkContext $>val rdd = sc.textFile("file:///home ...

分类：数据库时间：2019-01-01 14:07:47 阅读次数：638

DataFrame映射表的形式

使用DF.createTempView("person")对数据集注册临时表通过spark.sql(.....) 代码说明： df_rdd.createTempView("person") spark.sql("select * from person where name like '%0%'" ...

分类：其他好文时间：2019-01-01 13:23:28 阅读次数：193

查看spark RDD 各分区内容

mapPartitionsWithIndexdef mapPartitionsWithIndex[U](f: (Int, Iterator[T]) => Iterator[U], preservesPartitioning: Boolean = false)(implicit arg0: Class ...

分类：其他好文时间：2018-12-31 19:44:56 阅读次数：138

Spark SQL的介绍和DataFrame的建立及使用

1. Spark SQL定位处理结构化数据的模块。SparkSQL提供相应的优化机制，并支持不同语言的开发API。 java、scala、Python，类SQL的方法调用（DSL） 2. RDD与Spark SQL的比较说明：使用Spark SQL的优势：a.面向结构化数据；b.优化机制； RDD ...

分类：数据库时间：2018-12-31 17:28:16 阅读次数：235

【原创】大数据基础之Spark（7）spark读取文件split过程（即RDD分区数量）

spark 2.1.1 spark初始化rdd的时候，需要读取文件，通常是hdfs文件，在读文件的时候可以指定最小partition数量，这里只是建议的数量，实际可能比这个要大（比如文件特别多或者特别大时），也可能比这个要小（比如文件只有一个而且很小时），如果没有指定最小partition数量，初始 ...

分类：其他好文时间：2018-12-28 21:13:37 阅读次数：214

共1327条上一页 1 ... 41 42 43 44 45 ... 133 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)