搜索关键字：RDD，搜索到1327个结果！码迷,mamicode.com！

Spark RDD 宽窄依赖

RDD 宽窄依赖 RDD之间有一系列的依赖关系, 可分为窄依赖和宽依赖窄依赖从 RDD 的 parition 角度来看父 RRD 的 parition 和子 RDD 的 parition 之间的关系是一对一的 (或者是多对一的)。不会有 shuffle 产生宽依赖父 RRD 的 pa ...

分类：其他好文时间：2019-10-23 18:02:41 阅读次数：133

spark error Caused by: java.io.NotSerializableException: org.apache.hadoop.hdfs.DistributedFileSystem

序列化问题多事rdd遍历过程中使用了没有序列化的对象。 1.将未序列化的变量定义到rdd遍历内部。如定义入数据库连接池。 2.常量定义里包含了未序列化对象，提出去吧如下常量要放到main里，不能放到rdd的遍历中。 ...

分类：编程语言时间：2019-10-18 18:57:19 阅读次数：132

Spark-RDD

RDD（Resilient Distributed Datasets）弹性分布式数据集，是在集群应用中分享数据的一种高效，通用，容错的抽象，是Spark提供的最重要的抽象的概念，它是一种有容错机制的特殊集合，可以分布在集群的节点上，以函数式编操作集合的方式，进行各种并行操作。RDD是只读的，不可变的... ...

分类：其他好文时间：2019-10-18 16:09:55 阅读次数：83

spark连接jdbc，连接mysql

1 最直接的方式 scala> val jdbcDF = spark.read.format("jdbc") .option("url", "jdbc:mysql://hadoop1:3306/rdd") mysql 接口和库名 .option("dbtable", "rddtable") 两张表名 ...

分类：数据库时间：2019-10-09 19:24:25 阅读次数：126

RDD转化成类型的方式进行访问

1）创建一个样例类 scala> case class People(name:String,age:Long)defined class People 2）创建DataSet scala> val caseClassDS = Seq(People("Andy",32)).toDS()caseCla ...

分类：其他好文时间：2019-10-09 00:19:05 阅读次数：254

spark基础知识三

主要围绕spark的底层核心抽象RDD和原理进行理解。主要包括以下几个方面 RDD弹性分布式数据集的依赖关系 RDD弹性分布式数据集的lineage血统机制 RDD弹性分布式数据集的缓存机制 spark任务的DAG有向无环图的构建 spark任务如何划分stage spark任务的提交和调度流程 1 ...

分类：其他好文时间：2019-10-07 23:44:39 阅读次数：217

Spark SQL, DataFrames and Datasets 指南

概述Spark SQL 是 Spark 处理结构化数据的模块; 与基础的 Spark RDD API 不同, Spark SQL 提供的接口提供给 Spark 更多的关于数据和执行计算的结; 内在的, Spark SQL 使用这些额外的信息去执行额外的优化; 这里有几种包括 SQL 和 Datase... ...

分类：数据库时间：2019-10-07 17:41:23 阅读次数：102

Fun论设计模式之6：策略模式（Strategy Pattern）

策略模式通常与使用标准模式的Java数据流（stream，Java 8之后有）或者Spark的RDD数据流配合使用，用于改变数据的处理策略，一般用在map和reduce操作。意图：定义一系列的算法,把它们一个个封装起来, 并且使它们可相互替换。主要解决：在有多种算法相似的情况下，使用 if... ...

分类：其他好文时间：2019-10-05 13:00:04 阅读次数：93

spark原理

原理: RDD:使用内存--基本处理单位RDD:弹性分布式数据集 spark处理的时候,处理的是RDD数据(相当于是将块数据加载到内存中) 类似: [1,2,3,4,5,...] 1个节点处理 [1,2] 1个节点处理[3,4,5] ...... stage: 一个 Job 会被分成一个或多个Sta ...

分类：其他好文时间：2019-10-04 13:12:04 阅读次数：78

Spark SQL是处理结构化的数据

Spark SQL是处理结构化的数据，可以存储在二维表中，类似数据库中的表一样存储数据 Spark1.x val sqlContext = new SparkContext(conf) val sqlContext = new SQLContext(sc) //将RDD和Schema信息关联到一起， ...

分类：数据库时间：2019-10-04 11:28:54 阅读次数：107

共1327条上一页 1 ... 26 27 28 29 30 ... 133 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)