1,rdd的转换和行动操作 2,创建rdd的2种方式 1,通过hdfs支持的文件系统,没有真正把数据放rdd,只记录了一下元数据 2,通过scala的集合或者数组并行化的创建rdd 3,rdd的5大特点 1,rdd是分区的,可以指定分区数 2,算子的方法都会作用在每个分区 3,rdd之前有一系列的依 ...
分类:
其他好文 时间:
2018-08-18 21:13:41
阅读次数:
163
窄依赖指父RDD的每一个分区最多被一个子RDD的分区所用,表现为 一个父RDD的分区对应于一个子RDD的分区 两个父RDD的分区对应于一个子RDD 的分区。 宽依赖指子RDD的每个分区都要依赖于父RDD的所有分区,这是shuffle类操作 一个Job会被拆分为多组Task,每组任务被称为一个Stag ...
分类:
其他好文 时间:
2018-08-18 17:41:18
阅读次数:
470
RDD本身presist可以是本地存储,本地存储级别的持久化实现方式如下: DiskBlockManager负责管理和维护block和磁盘存储的映射关系,通过blockId作为文件名称,然后如果是多个目录通过blcokId的hash值进行分发。 包括创建目录,删除,读取文件,以及一些退出删除文件的机 ...
分类:
其他好文 时间:
2018-08-17 14:56:42
阅读次数:
426
1.说明 虽然DStream可以转换成RDD,但是如果比较复杂,可以考虑使用SparkSQL。 2.集成方式 Streaming和Core整合: transform或者foreachRDD方法 Core和SQL整合: RDD <==> DataFrame 互换 3.程序 4.效果 ...
分类:
数据库 时间:
2018-08-16 22:28:07
阅读次数:
224
1.说明 DStream的API不够满足使用的时候,可以使用这两个函数,将dstream转换为rdd,然后进行操作 2.transform transform:将DStream的操作转换为RDD的操作,调用该api最终只需要返回一个新的RDD即可 3.程序 4.foreachRDD 作用和trans ...
分类:
其他好文 时间:
2018-08-16 21:34:25
阅读次数:
2286
211 Add and Search Word - Data structure design ///Line 10: error: cannot find symbol: class WordDictionary class WordDictionary { public class TrieNo... ...
分类:
其他好文 时间:
2018-08-09 19:28:53
阅读次数:
128
主要内容 : 1 . 正则表达式中的转义和 python中的转义符 a: 正则表达式中的转义符 '\(' : 表示匹配小括号 [() + * $ . ?] 在字符组中一些特殊的字符会现出原形. 所有的\d \w \s(\n \ t) 都表示原本的意义 [-]只有写在字符组的首位的时候表示普通的减号, ...
分类:
其他好文 时间:
2018-08-07 19:00:55
阅读次数:
177
RDD运行原理 1.创建 RDD 对象 2.DAGScheduler模块介入运算,计算RDD之间的依赖关系。RDD之间的依赖关系就形成了DAG 3.每一个JOB被分为多个Stage,划分Stage的一个主要依据是当前计算因子的输入是否是确定的,如果是则将其分在同一个Stage,避免多个Stage之间 ...
分类:
其他好文 时间:
2018-08-02 16:02:35
阅读次数:
148
[1,2,3,3]的RDD rdd.foreach(println) 1 2 3 3 ...
分类:
其他好文 时间:
2018-07-31 23:42:26
阅读次数:
166
一:RDD与DataFrame互相转换 1.总纲 二:DataFrame转换为RDD 1.rdd 使用schema可以获取DataFrame的schema 使用rdd可以获取DataFrame的数据 三:RDD转换为DataFrame 1.第一种方式 使用反射, RDD的数据类型必须是case cl ...
分类:
其他好文 时间:
2018-07-28 23:26:43
阅读次数:
158