码迷,mamicode.com
首页 >  
搜索关键字:RDD    ( 1327个结果
Spark stdout日志乱码
采用Apache版本spark1.2.1时没有出现乱码,但spark-1.1.0-cdh5.2.1版本中,在分布处理的map函数里对数据进行打印输出进行debug时valrs=rdd.filter(e=>{val(lable,text)=(e._2(2),e._2(3));m.filterItem(lable,text)}) .reduceByKey((x,y)=>m.merge(x,y)) .map{case(x,y)=..
分类:其他好文   时间:2015-06-05 17:58:49    阅读次数:181
Spark 批量写数据入HBase
介绍 ??工作中常常会遇到这种情形,需要将hdfs中的大批量数据导入HBase。本文使用Spark+HBase的方式将RDD中的数据导入HBase中。没有使用官网提供的newAPIHadoopRDD接口的方式。使用本文的方式将数据导入HBase, 7000W条数据,花费时间大概20分钟左右,本文Spark可用核数量为20。...
分类:其他好文   时间:2015-06-02 18:05:27    阅读次数:535
Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing
《Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing》论文阅读笔记。 介绍了基于弹性分布式数据集(RDD)的分布式计算模型,并介绍了该模型的实现Spark平台。
分类:其他好文   时间:2015-05-27 15:40:01    阅读次数:530
有了Hadoop MapReduce, 为什么还要Spark?
a. 由于MapReduce的shuffle过程需写磁盘,比较影响性能;而Spark利用RDD技术,计算在内存中进行.b. MapReduce计算框架(API)比较局限, 而Spark则是具备灵活性的并行计算框架.c. 再说说Spark API方面- Scala: Scalable Language...
分类:其他好文   时间:2015-05-21 18:50:09    阅读次数:169
RDD的持久化
Spark最重要的一个功能,就是在不同操作间,持久化(或缓存)一个数据集在内存中。当你持久化一个RDD,每一个结点都将把它的计算分块结果保存在内存中,并在对此数据集(或者衍生出的数据集)进行的其它动作中重用...
分类:其他好文   时间:2015-05-20 18:53:15    阅读次数:264
RDD的持久化
Spark最重要的一个功能,就是在不同操作间,持久化(或缓存)一个数据集在内存中。当你持久化一个RDD,每一个结点都将把它的计算分块结果保存在内存中,并在对此数据集(或者衍生出的数据集)进行的其它动作中重用。这将使得后续的动作(Actions)变得更加迅速(通常快10倍)。缓存是用Spark构建迭代...
分类:其他好文   时间:2015-05-20 18:14:07    阅读次数:147
Spark(六) -- RDD详解
What is RDD? A Resilient Distributed Dataset(RDD),分布式弹性数据集,是Spark上的一个核心抽象 表示用于并行计算的,不可修改的,对数据集合进行分片的数据结构 在Spark上,针对各种各样的计算场景存在着各种各种的RDD,这些RDD拥有一些共同的操作,例如map,filter,persist等,就好像RDDs都是一个总RDD的子类一样,拥有所有...
分类:其他好文   时间:2015-05-17 13:47:42    阅读次数:172
spark streaming中使用checkpoint
从官方的Programming Guides中看到的我理解streaming中的checkpoint有两种,一种指的是metadata的checkpoint,用于恢复你的streaming;一种是rdd的checkpoint的;下面的代码指的是第一种:// Function to create an...
分类:其他好文   时间:2015-05-14 09:55:54    阅读次数:130
sc.intersection
用来找到两个rdd的交集,注意,最终的new rdd的分区数量取决于两个rdd中的最大分区数量。测试一下:val data1 = sc.parallelize(1 to 20,1)val data2 = sc.parallelize(1 to 5,2)val data3 = data1.inters...
分类:其他好文   时间:2015-05-11 17:49:13    阅读次数:143
sc.union
我理解,就是将RDD指定的RDD进行合并。 同时保留合并数据的分区。val data1 = sc.parallelize(1 to 20)data1.partitions.lengthval data2 = sc.parallelize(25 to 30)data2.partitions.lengt...
分类:其他好文   时间:2015-05-11 17:41:40    阅读次数:128
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!