码迷,mamicode.com
首页 >  
搜索关键字:RDD    ( 1327个结果
(Java) LeetCode 139. Word Break —— 单词拆分
Given a non-empty string s and a dictionary wordDict containing a list of non-empty words, determine if s can be segmented into a space-separated sequ ...
分类:编程语言   时间:2018-07-03 23:41:20    阅读次数:163
spark知识体系04-SQL,DataFrames,DateSets
简介 Spark SQL 是 Spark 处理结构化数据的一个模块.与基础的 Spark RDD API 不同, Spark SQL 提供了查询结构化数据及计算结果等信息的接口.在内部, Spark SQL 使用这个额外的信息去执行额外的优化.有几种方式可以跟 Spark SQL 进行交互, 包括 ...
分类:数据库   时间:2018-06-30 14:52:23    阅读次数:492
spark知识体系03-Rdds,Accumulators,Broadcasts
本篇主要详解spark具体编程实践中的rdd常用算子。 Rdds,Accumulators,Broadcasts RDD RDDs support 两种类型的操作: transformations(转换), 它会在一个已存在的 dataset 上创建一个新的 dataset, 和 actions(动 ...
分类:其他好文   时间:2018-06-30 12:44:06    阅读次数:203
[Spark]-RDD详解之变量&操作
RDD的操作 1.1 概述 RDD整体包含两大类操作 transformation 从现有中创建一个新的数据集 action 在对数据集做一定程度的计算后将结果返回 以MapReduce来说,Map就是一个transformation ,它是从每个文件块上执行一个方法来抽取转换,最终形成一个新的数据 ...
分类:其他好文   时间:2018-06-29 23:31:22    阅读次数:1058
[Spark]-RDD之创建
1.RDD的创建 1.1 从一个本地的Scala集合创建 1.2 从一个外部的存储系统中创建 这里外部系统,指的是任何Hadoop(InputFormat)支持的存储系统.比如本地文本文件,HDFS,HBase,S3等等 1.2.1 textFile 1.2.2 wholeTextFiles who ...
分类:其他好文   时间:2018-06-29 23:31:07    阅读次数:195
[Spark]-RDD
1.什么是RDD Resilient Distributed Dataset(RDD),弹性的分布式数据集. 分布式数据集,是指数据集会以patition块的方式,存储在多个节点上. 弹性,体现在Spark计算过程中将数据的抽象封装,依此带来的各种重试机制,内存和磁盘切换,高自由的分片函数等 Had ...
分类:其他好文   时间:2018-06-28 21:59:06    阅读次数:210
keyvalue对RDD s
scala> val input =sc.textFile("/home/simon/SparkWorkspace/test.txt")input: org.apache.spark.rdd.RDD[String] = /home/simon/SparkWorkspace/test.txt MapP ...
分类:其他好文   时间:2018-06-28 13:44:32    阅读次数:124
彻底搞懂spark的shuffle过程(shuffle write)
什么时候需要 shuffle writer 假如我们有个 spark job 依赖关系如下 我们抽象出来其中的rdd和依赖关系: E < n , C <--n D n F--s , A < s B <--n `-- G 对应的划分后的RDD结构为: 最终我们得到了整个执行过程: 中间就涉及到shuf ...
分类:其他好文   时间:2018-06-20 00:51:33    阅读次数:367
Checkpoint的运行原理和源码实现
引言 Checkpoint 到底是什么和需要用 Checkpoint 解决什么问题: Checkpoint 运行原理图 Checkpoint 源码解析 1、RDD.iterator 方法,它会先在缓存中查看数据 (内部会查看 Checkpoint 有没有相关数据),然后再从 CheckPoint 中 ...
分类:其他好文   时间:2018-06-19 16:23:42    阅读次数:126
Spark源码分析之Checkpoint的过程
概述 checkpoint 的机制保证了需要访问重复数据的应用 Spark 的DAG执行图可能很庞大,task 中计算链可能会很长,这时如果 task 中途运行出错,那么 task 的整个需要重算非常耗时,因此,有必要将计算代价较大的 RDD checkpoint 一下,当下游 RDD 计算出错时, ...
分类:其他好文   时间:2018-06-19 11:50:29    阅读次数:236
1327条   上一页 1 ... 52 53 54 55 56 ... 133 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!