搜索关键字：RDD，搜索到1327个结果！码迷,mamicode.com！

博文目录

为了方便大家阅读，我把博文目录梳理了一下，里面会有已完成和计划写的博文，希望大家多多交流，有错误的地方请随时指正^_^ Spark基础（5月中旬写完）【原】Learning Spark (Python版) 学习笔记(一) RDD 基本概念与命令【原】Learning Spark (Python版 ...

分类：其他好文时间：2016-05-09 09:44:13 阅读次数：160

第14课：Spark RDD解密

以下为SparkRDD解密课程学习心得：在介绍SparkRDD之前，先简单的说下HadoopMapReduce，它是基于数据流的方式进行计算，从物理存储上加载数据，然后操作数据，最后写入到物理存储设备上，这样的模式会产生大量的中间结果。MapReduce不适合场景：1.不适合大量迭代计算场景，2.交..

分类：其他好文时间：2016-05-08 12:11:18 阅读次数：137

Spark之RDD持久化、广播、累加器

RDD持久化、广播、累加器实质上分别涉及了RDD的数据如何保存，RDD在构建高效算法的时候涉及了persist或者checkpoint，以及广播和累加器，通过spark-shell可以试验一些小功能，spark-shell本身是spark的发行包推出的一个程序，通过这个程序可以直接写代码，spark-shell会把代码..

分类：其他好文时间：2016-05-08 12:09:39 阅读次数：1173

RDD中的转换和action（二）PairRDD操作

package RDD import org.apache.spark.{SparkConf, SparkContext} /** * Created by legotime on 2016/5/5. */ object pairRDD { def myfunc1(index: Int, iter: Iterator[(String)]) : Iterator[String] =...

分类：其他好文时间：2016-05-07 11:30:22 阅读次数：872

spark源码阅读笔记RDD（七） RDD的创建、读取和保存

Spark支持很多输入和输入源，同时还支持内建RDD。Spark本身是基于Hadoop的生态圈，它可以通过 Hadoop MapReduce所使用的InpoutFormat和OutputFormat接口访问数据。而且大部分的文件格式和存储系统（HDFS,Hbase，S3等）都支持这种接口。Spark常见的数据源如下：（1）文件格式和文件系统，也就是我们经常用的TXT，JSON,CSV等...

分类：其他好文时间：2016-05-07 11:28:59 阅读次数：492

spark中的Broadcast variables和Accumulator

举个例子： val factor = 3 rdd.map( num => num*factor)以上两行代码显示了rdd的一个map操作，其中factor是一个外部变量。默认情况下，算子的函数内，如果使用到了外部变量，那么会将这个变量拷贝到执行这个函数的每一个task中。如果该变量非常大的话，那么网络传输耗费的资源会特别大，而且在每个节点上占用的内存空间也特别大。 Spark提供的Broadc...

分类：其他好文时间：2016-05-07 09:08:54 阅读次数：144

通过案例对SparkStreaming透彻理解三板之二

1.解密Spark Streaming运行机制 2.解密Spark Streaming架构 I.Spark Core是基于RDD形成的，RDD之间都会有依赖关系，Spark Streaming在RDD上的时间维度，DStream就是在RDD的基础之上加上了时间维度。DStream就是RDD的模板，随着时间的流逝不断地实例化DStream，以数据进行填充DStream Graph,静态的...

分类：其他好文时间：2016-05-07 09:05:46 阅读次数：135

实战解析Spark运行原理和RDD解密

1.实战解析Spark运行原理交互式查询（shell，sql）批处理（机器学习，图计算）首先，spark是基于内存的分布式高效计算框架，采用一栈式管理机制，同时支持流处理，实时交互式出，批处理三种方式，Spark特别支持迭代式计算，因此，他对机器学习，图计算具有较强的支持，为此他提供了机器学习和图计算接口。（1）分布式：Distributed Computation 分布式多台机器...

分类：其他好文时间：2016-05-07 08:02:27 阅读次数：137

SparkContext源码阅读

SparkContext是spark的入口，通过它来连接集群、创建RDD、广播变量等等。 ...

分类：其他好文时间：2016-05-06 23:27:24 阅读次数：312

Spark RDD类源码学习(未完）

每天进步一点点~开搞~ ...

分类：其他好文时间：2016-05-06 21:58:41 阅读次数：240

共1327条上一页 1 ... 105 106 107 108 109 ... 133 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)