Spark最为重要的特性之一就是可以在多个操作(Action)之间,将一个或多个RDD关联的数据集(Dataset)以分区(Partition)为单位进行持久化(Persist)或缓存(Cache),存储介质通常是内存(Memory)。被持久化或缓存的RDD A可以在两种情况下被很好地“重复”利用:...
分类:
其他好文 时间:
2015-11-15 13:22:45
阅读次数:
247
RDD定义RDD全称是Resilient Distributed Dataset, 是spark的核心抽象层,通过它可以读取多种文件,这里演示如何读取hdfs文件。所有spark的工作都是发生在RDD上,比如创建新的RDD,转换已有的RDD,对现有的RDD计算求得结果。RDD在spark中是不可变的(immutable)对象集合,RDD可以被划分成多个分区,存放在不同的节点。创建RDD有两种方法,...
分类:
数据库 时间:
2015-11-11 16:38:48
阅读次数:
433
Spark 应用由driver program 组成,driver program运行用户的主函数,在集群内并行执行各种操作主要抽象RDD: spark提供RDD,是贯穿整个集群中所有节点的分区元素的集合,能够被并行操作。RDDS来源: 1.Hadoop文件系统或支持Hadoop的文件系统中操...
分类:
其他好文 时间:
2015-11-05 15:04:07
阅读次数:
348
转自:http://www.infoq.com/cn/articles/spark-core-rdd/感谢张逸老师的无私分享 RDD,全称为Resilient Distributed Datasets,是一个容错的、并行的数据结构,可以让用户显式地将数据存储到磁盘和内存中,并能控制数据的分区。同时....
分类:
其他好文 时间:
2015-11-02 01:29:45
阅读次数:
378
转发自玖疯的博客 http://www.cnblogs.com/lxf20061900/p/3866252.html Spark Streaming是一个新的实时计算的利器,而且还在快速的发展。它将输入流切分成一个个的DStream转换为RDD,从而可以使用Spark来处理。它直接支持多种数据源.....
分类:
Web程序 时间:
2015-10-29 13:11:47
阅读次数:
328
PLSA.py 1 # coding:utf8 2 from pyspark import SparkContext 3 from pyspark import RDD 4 import numpy as np 5 from numpy.random import RandomState ...
分类:
其他好文 时间:
2015-10-23 18:28:14
阅读次数:
382
Spark在任务提交时,主要存在于Driver和Executor的两个节点.(1)Driver的作用: 用于将所有要处理的RDD的操作转化为DAG,并且根据RDD DAG将JBO分割为多个Stage,最后生成相应的task,分发到各个Executor执行.流程:sc.runJob -> DAGS.....
分类:
其他好文 时间:
2015-10-23 01:38:28
阅读次数:
342
前一我们分析了SparkContext的创建,这一节,我们介绍在RDD执行的时候,如何提交job进行分析,同样是下面的源码:import org.apache.spark.{SparkConf, SparkContext}object SparkWordCount{
def main(args: Array[String]) {
if (args.length == 0) {...
分类:
其他好文 时间:
2015-10-20 06:40:55
阅读次数:
197
示例Spark多个RDD(数据格式相同)“组合”为一个RDD代码from pyspark import SparkConf, SparkContext conf = SparkConf().setAppName("spark_app_union") sc = SparkContext(conf=co...
分类:
其他好文 时间:
2015-10-19 17:26:00
阅读次数:
142
1.Spark集群部署及开发环境搭建。内容包括Hadoop集群、Spark集群搭建,IntellijIDEASpark开发环境搭建,SparkShell的使用等。2.Spark运行原理。内容包括spark脚本文件解析、Spark几种不同运行方式、RDD原理、宽依赖与窄依赖、Spark任务调度等。3.Spark编程模型,介绍Spark编程模..
分类:
其他好文 时间:
2015-10-13 12:22:05
阅读次数:
242