码迷,mamicode.com
首页 >  
搜索关键字:RDD    ( 1327个结果
Spark RDD 宽窄依赖
RDD 宽窄依赖 RDD之间有一系列的依赖关系, 可分为窄依赖和宽依赖 窄依赖 从 RDD 的 parition 角度来看 父 RRD 的 parition 和 子 RDD 的 parition 之间的关系是一对一的 (或 者是多对一的)。 不会有 shuffle 产生 宽依赖 父 RRD 的 pa ...
分类:其他好文   时间:2019-10-23 18:02:41    阅读次数:133
spark error Caused by: java.io.NotSerializableException: org.apache.hadoop.hdfs.DistributedFileSystem
序列化问题多事rdd遍历过程中使用了没有序列化的对象。 1.将未序列化的变量定义到rdd遍历内部。如定义入数据库连接池。 2.常量定义里包含了未序列化对象 ,提出去吧 如下常量要放到main里,不能放到rdd的遍历中。 ...
分类:编程语言   时间:2019-10-18 18:57:19    阅读次数:132
Spark-RDD
RDD(Resilient Distributed Datasets)弹性分布式数据集,是在集群应用中分享数据的一种高效,通用,容错的抽象,是Spark提供的最重要的抽象的概念,它是一种有容错机制的特殊集合,可以分布在集群的节点上,以函数式编操作集合的方式,进行各种并行操作。RDD是只读的,不可变的... ...
分类:其他好文   时间:2019-10-18 16:09:55    阅读次数:83
spark连接jdbc,连接mysql
1 最直接的方式 scala> val jdbcDF = spark.read.format("jdbc") .option("url", "jdbc:mysql://hadoop1:3306/rdd") mysql 接口和库名 .option("dbtable", "rddtable") 两张表名 ...
分类:数据库   时间:2019-10-09 19:24:25    阅读次数:126
RDD转化成类型的方式进行访问
1)创建一个样例类 scala> case class People(name:String,age:Long)defined class People 2)创建DataSet scala> val caseClassDS = Seq(People("Andy",32)).toDS()caseCla ...
分类:其他好文   时间:2019-10-09 00:19:05    阅读次数:254
spark基础知识三
主要围绕spark的底层核心抽象RDD和原理进行理解。主要包括以下几个方面 RDD弹性分布式数据集的依赖关系 RDD弹性分布式数据集的lineage血统机制 RDD弹性分布式数据集的缓存机制 spark任务的DAG有向无环图的构建 spark任务如何划分stage spark任务的提交和调度流程 1 ...
分类:其他好文   时间:2019-10-07 23:44:39    阅读次数:217
Spark SQL, DataFrames and Datasets 指南
概述Spark SQL 是 Spark 处理结构化数据的模块; 与基础的 Spark RDD API 不同, Spark SQL 提供的接口提供给 Spark 更多的关于数据和执行计算的结; 内在的, Spark SQL 使用这些额外的信息去执行额外的优化; 这里有几种包括 SQL 和 Datase... ...
分类:数据库   时间:2019-10-07 17:41:23    阅读次数:102
Fun论设计模式之6:策略模式(Strategy Pattern)
策略模式通常与使用标准模式的Java数据流(stream,Java 8之后有)或者Spark的RDD数据流配合使用,用于改变数据的处理策略,一般用在map和reduce操作。 意图:定义一系列的算法,把它们一个个封装起来, 并且使它们可相互替换。 主要解决:在有多种算法相似的情况下,使用 if... ...
分类:其他好文   时间:2019-10-05 13:00:04    阅读次数:93
spark原理
原理: RDD:使用内存--基本处理单位RDD:弹性分布式数据集 spark处理的时候,处理的是RDD数据(相当于是将块数据加载到内存中) 类似: [1,2,3,4,5,...] 1个节点处理 [1,2] 1个节点处理[3,4,5] ...... stage: 一个 Job 会被分成一个或多个Sta ...
分类:其他好文   时间:2019-10-04 13:12:04    阅读次数:78
Spark SQL是处理结构化的数据
Spark SQL是处理结构化的数据,可以存储在二维表中,类似数据库中的表一样存储数据 Spark1.x val sqlContext = new SparkContext(conf) val sqlContext = new SQLContext(sc) //将RDD和Schema信息关联到一起, ...
分类:数据库   时间:2019-10-04 11:28:54    阅读次数:107
1327条   上一页 1 ... 26 27 28 29 30 ... 133 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!