采用Apache版本spark1.2.1时没有出现乱码,但spark-1.1.0-cdh5.2.1版本中,在分布处理的map函数里对数据进行打印输出进行debug时valrs=rdd.filter(e=>{val(lable,text)=(e._2(2),e._2(3));m.filterItem(lable,text)})
.reduceByKey((x,y)=>m.merge(x,y))
.map{case(x,y)=..
分类:
其他好文 时间:
2015-06-05 17:58:49
阅读次数:
181
介绍
??工作中常常会遇到这种情形,需要将hdfs中的大批量数据导入HBase。本文使用Spark+HBase的方式将RDD中的数据导入HBase中。没有使用官网提供的newAPIHadoopRDD接口的方式。使用本文的方式将数据导入HBase, 7000W条数据,花费时间大概20分钟左右,本文Spark可用核数量为20。...
分类:
其他好文 时间:
2015-06-02 18:05:27
阅读次数:
535
《Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing》论文阅读笔记。 介绍了基于弹性分布式数据集(RDD)的分布式计算模型,并介绍了该模型的实现Spark平台。
分类:
其他好文 时间:
2015-05-27 15:40:01
阅读次数:
530
a. 由于MapReduce的shuffle过程需写磁盘,比较影响性能;而Spark利用RDD技术,计算在内存中进行.b. MapReduce计算框架(API)比较局限, 而Spark则是具备灵活性的并行计算框架.c. 再说说Spark API方面- Scala: Scalable Language...
分类:
其他好文 时间:
2015-05-21 18:50:09
阅读次数:
169
Spark最重要的一个功能,就是在不同操作间,持久化(或缓存)一个数据集在内存中。当你持久化一个RDD,每一个结点都将把它的计算分块结果保存在内存中,并在对此数据集(或者衍生出的数据集)进行的其它动作中重用...
分类:
其他好文 时间:
2015-05-20 18:53:15
阅读次数:
264
Spark最重要的一个功能,就是在不同操作间,持久化(或缓存)一个数据集在内存中。当你持久化一个RDD,每一个结点都将把它的计算分块结果保存在内存中,并在对此数据集(或者衍生出的数据集)进行的其它动作中重用。这将使得后续的动作(Actions)变得更加迅速(通常快10倍)。缓存是用Spark构建迭代...
分类:
其他好文 时间:
2015-05-20 18:14:07
阅读次数:
147
What is RDD?
A Resilient Distributed Dataset(RDD),分布式弹性数据集,是Spark上的一个核心抽象
表示用于并行计算的,不可修改的,对数据集合进行分片的数据结构
在Spark上,针对各种各样的计算场景存在着各种各种的RDD,这些RDD拥有一些共同的操作,例如map,filter,persist等,就好像RDDs都是一个总RDD的子类一样,拥有所有...
分类:
其他好文 时间:
2015-05-17 13:47:42
阅读次数:
172
从官方的Programming Guides中看到的我理解streaming中的checkpoint有两种,一种指的是metadata的checkpoint,用于恢复你的streaming;一种是rdd的checkpoint的;下面的代码指的是第一种:// Function to create an...
分类:
其他好文 时间:
2015-05-14 09:55:54
阅读次数:
130
用来找到两个rdd的交集,注意,最终的new rdd的分区数量取决于两个rdd中的最大分区数量。测试一下:val data1 = sc.parallelize(1 to 20,1)val data2 = sc.parallelize(1 to 5,2)val data3 = data1.inters...
分类:
其他好文 时间:
2015-05-11 17:49:13
阅读次数:
143
我理解,就是将RDD指定的RDD进行合并。 同时保留合并数据的分区。val data1 = sc.parallelize(1 to 20)data1.partitions.lengthval data2 = sc.parallelize(25 to 30)data2.partitions.lengt...
分类:
其他好文 时间:
2015-05-11 17:41:40
阅读次数:
128