搜索关键字：RDD，搜索到1327个结果！码迷,mamicode.com！

Spark stdout日志乱码

采用Apache版本spark1.2.1时没有出现乱码，但spark-1.1.0-cdh5.2.1版本中，在分布处理的map函数里对数据进行打印输出进行debug时valrs=rdd.filter(e=>{val(lable,text)=(e._2(2),e._2(3));m.filterItem(lable,text)}) .reduceByKey((x,y)=>m.merge(x,y)) .map{case(x,y)=..

分类：其他好文时间：2015-06-05 17:58:49 阅读次数：181

Spark 批量写数据入HBase

介绍 ??工作中常常会遇到这种情形，需要将hdfs中的大批量数据导入HBase。本文使用Spark+HBase的方式将RDD中的数据导入HBase中。没有使用官网提供的newAPIHadoopRDD接口的方式。使用本文的方式将数据导入HBase, 7000W条数据，花费时间大概20分钟左右，本文Spark可用核数量为20。...

分类：其他好文时间：2015-06-02 18:05:27 阅读次数：535

Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing

《Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing》论文阅读笔记。介绍了基于弹性分布式数据集(RDD)的分布式计算模型，并介绍了该模型的实现Spark平台。

分类：其他好文时间：2015-05-27 15:40:01 阅读次数：530

有了Hadoop MapReduce, 为什么还要Spark?

a. 由于MapReduce的shuffle过程需写磁盘，比较影响性能；而Spark利用RDD技术，计算在内存中进行.b. MapReduce计算框架(API)比较局限, 而Spark则是具备灵活性的并行计算框架.c. 再说说Spark API方面- Scala: Scalable Language...

分类：其他好文时间：2015-05-21 18:50:09 阅读次数：169

RDD的持久化

Spark最重要的一个功能，就是在不同操作间，持久化（或缓存）一个数据集在内存中。当你持久化一个RDD，每一个结点都将把它的计算分块结果保存在内存中，并在对此数据集（或者衍生出的数据集）进行的其它动作中重用...

分类：其他好文时间：2015-05-20 18:53:15 阅读次数：264

RDD的持久化

Spark最重要的一个功能，就是在不同操作间，持久化（或缓存）一个数据集在内存中。当你持久化一个RDD，每一个结点都将把它的计算分块结果保存在内存中，并在对此数据集（或者衍生出的数据集）进行的其它动作中重用。这将使得后续的动作(Actions)变得更加迅速（通常快10倍）。缓存是用Spark构建迭代...

分类：其他好文时间：2015-05-20 18:14:07 阅读次数：147

Spark（六） -- RDD详解

What is RDD？ A Resilient Distributed Dataset(RDD)，分布式弹性数据集，是Spark上的一个核心抽象表示用于并行计算的，不可修改的，对数据集合进行分片的数据结构在Spark上，针对各种各样的计算场景存在着各种各种的RDD，这些RDD拥有一些共同的操作，例如map，filter，persist等，就好像RDDs都是一个总RDD的子类一样，拥有所有...

分类：其他好文时间：2015-05-17 13:47:42 阅读次数：172

spark streaming中使用checkpoint

从官方的Programming Guides中看到的我理解streaming中的checkpoint有两种，一种指的是metadata的checkpoint，用于恢复你的streaming；一种是rdd的checkpoint的；下面的代码指的是第一种：// Function to create an...

分类：其他好文时间：2015-05-14 09:55:54 阅读次数：130

sc.intersection

用来找到两个rdd的交集，注意，最终的new rdd的分区数量取决于两个rdd中的最大分区数量。测试一下：val data1 = sc.parallelize(1 to 20,1)val data2 = sc.parallelize(1 to 5,2)val data3 = data1.inters...

分类：其他好文时间：2015-05-11 17:49:13 阅读次数：143

sc.union

我理解，就是将RDD指定的RDD进行合并。同时保留合并数据的分区。val data1 = sc.parallelize(1 to 20)data1.partitions.lengthval data2 = sc.parallelize(25 to 30)data2.partitions.lengt...

分类：其他好文时间：2015-05-11 17:41:40 阅读次数：128

共1327条上一页 1 ... 121 122 123 124 125 ... 133 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)