弹性分布式数据集(RDD) Spark是以RDD概念为中心运行的。RDD是一个容错的、可以被并行操作的元素集合。创建一个RDD有两个方法:在你的驱动程序中并行化一个已经存在的集合;从外部存储系统中引用一个数据集。RDD的一大特性是分布式存储,分布式存储在最大的好处是可以让数据在不同工作节点并行存储, ...
分类:
编程语言 时间:
2016-07-08 21:46:20
阅读次数:
392
Spark作为一种开源集群计算环境,具有分布式的快速数据处理能力。而Spark中的Mllib定义了各种各样用于机器学习的数据结构以及算法。Python具有Spark的API。需要注意的是,Spark中,所有数据的处理都是基于RDD的。 首先举一个聚类方面的详细应用例子Kmeans: 下面代码是一些基 ...
分类:
其他好文 时间:
2016-07-08 21:31:18
阅读次数:
611
一. Spark源码编译 解析: 说明:漫长的等待后,上述命令生成SBT工程,我们就可以使用IDEA以SBT Project的方式打开。 二. RDD实现详解 通过persist()或cache()方法可以持久化RDD,cache()是使用persist()的快捷方式。为了避免缓存丢失重新计算带来的 ...
分类:
其他好文 时间:
2016-07-04 18:45:10
阅读次数:
140
背景 使用spark开发已有几个月。相比于python/hive,scala/spark学习门槛较高。尤其记得刚开时,举步维艰,进展十分缓慢。不过谢天谢地,这段苦涩(bi)的日子过去了。忆苦思甜,为了避免项目组的其他同学走弯路,决定总结和梳理spark的使用经验。 Spark基础 基石RDD spa ...
分类:
其他好文 时间:
2016-07-01 18:14:39
阅读次数:
370
上次在spark的一个群里面,众大神议论:dataset会取代rdd么? 大神1:听说之后的mlib都会用dataset来实现,呜呜,rdd要狗带 大神2:dataset主要是用来实现sql的,跟mlib没多大关系,你们说为什么要用dataset呢? 大神3:因为老板喜欢。 在市场上找一个会写sql ...
分类:
数据库 时间:
2016-07-01 13:14:51
阅读次数:
503
've got big RDD(1gb) in yarn cluster. On local machine, which use this cluster I have only 512 mb. I'd like to iterate over values in RDD on my local ...
分类:
系统相关 时间:
2016-06-30 21:43:33
阅读次数:
588
Spark简介 spark 可以很容易和yarn结合,直接调用HDFS、Hbase上面的数据,和hadoop结合。配置很容易。 spark发展迅猛,框架比hadoop更加灵活实用。减少了延时处理,提高性能效率实用灵活性。也可以与hadoop切实相互结合。 spark核心部分分为RDD。Spark S ...
分类:
其他好文 时间:
2016-06-30 21:42:01
阅读次数:
193
1、关于Application 用户程序,一个Application由一个在Driver运行的功能代码和多个Executor上运行的代码组成(工作在不同的节点上)。 又分成多个Job,每个Job由多个RDD和一些Action操作组成、job本分多个task组,每个task组称为:stage。 每个t ...
分类:
其他好文 时间:
2016-06-27 19:46:13
阅读次数:
262
fold和reduce都要求函数的返回值类型需要和我们所操作的RDD类型相同,但是我们有时确实需要一个不同类型的返回值。eg: 在计算平均值时,需要记录便利过程中的计数以及元素的数量,这就需要我们返回一个二元组。可以先对数据使用map操作,来把元素转移为改元素和1的二元组,也就是我们希望的返回类型。 ...
分类:
其他好文 时间:
2016-06-26 15:18:49
阅读次数:
350
在集群背后,有一个非常重要的分布式数据架构,即弹性分布式数据集(Resilient Distributed Dataset,RDD)。它是一种有容错机制的特殊集合,可以分布在集群的节点上,以函数式编操作集合的方式,进行各种并行操作。可以将RDD理解为一个具有容错机制的特殊集合,它提供了一种只读、只能有已存在的RDD变换而来的共享内存,然后将所有数据都加载到内存中,方便进行多次重用。分布在多台机器上,计算过程中内存不够时它会和磁盘进行数据交换,实质是一种更为通用的迭代并行计算框架,用户可以显示的控制计算的中间...
分类:
其他好文 时间:
2016-06-24 15:36:23
阅读次数:
240