搜索关键字：RDD，搜索到1327个结果！码迷,mamicode.com！

RDD之三：RDD创建方式

RDD创建方式 1）从Hadoop文件系统（如HDFS、Hive、HBase）输入创建。2）从父RDD转换得到新RDD。3）通过parallelize或makeRDD将单机数据创建为分布式RDD。 4）基于DB(Mysql)、NoSQL(HBase)、S3(SC3)、数据流创建。从集合创建RDD ...

分类：其他好文时间：2017-01-20 22:01:33 阅读次数：331

RDD之五：Key-Value型Transformation算子

Transformation处理的数据为Key-Value形式的算子大致可以分为：输入分区与输出分区一对一、聚集、连接操作。输入分区与输出分区一对一 mapValues mapValues：针对（Key，Value）型数据中的Value进行Map操作，而不对Key进行处理。方框代表RDD分区。a ...

分类：其他好文时间：2017-01-20 21:57:32 阅读次数：323

RDD之六：Action算子

本质上在Actions算子中通过SparkContext执行提交作业的runJob操作，触发了RDD DAG的执行。根据Action算子的输出空间将Action算子进行分类：无输出、 HDFS、 Scala集合和数据类型。无输出 foreach 对RDD中的每个元素都应用f函数操作，不返回RDD ...

分类：其他好文时间：2017-01-20 21:54:42 阅读次数：264

SparkContext, map, flatMap, zip以及例程wordcount

SparkContext 通常作为入口函数，可以创建并返回一个RDD。如把Spark集群当作服务端那Spark Driver就是客户端，SparkContext则是客户端的核心；如注释所说 SparkContext用于连接Spark集群、创建RDD、累加器（accumlator）、广播变量（br ...

分类：其他好文时间：2017-01-11 15:38:38 阅读次数：398

spark中的RDD以及DAG

今天,我们就先聊一下spark中的DAG以及RDD的相关的内容 1.DAG:有向无环图:有方向,无闭环,代表着数据的流向，这个DAG的边界则是Action方法的执行 2.如何将DAG切分stage,stage切分的依据:有宽依赖的时候要进行切分(shuffle的时候, 也就是数据有网络的传递的时候) ...

分类：其他好文时间：2017-01-11 08:07:13 阅读次数：311

DP专题训练之HDU 1231 最大连续子序列

Description 给定K个整数的序列{ N1, N2, ..., NK }，其任意连续子序列可表示为{ Ni, Ni+1, ..., Nj }，其中 1 <= i <= j <= K。最大连续子序列是所有连续子序列中元素和最大的一个，例如给定序列{ -2, 11, -4, 13, -5, - ...

分类：其他好文时间：2016-12-28 18:52:00 阅读次数：246

初见spark-02(RDD及其简单算子)

今天，我们来进入spark学习的第二章，发现有很多事都已经开始变化，生活没有简单的朝自己想去的方向，但是还是需要努力呀，不说鸡汤之类的话了，开始我们今天的spark的旅程一.RDD是什么 rdd的中文解释为弹性分布式数据集,全称Resilient Distributed Datases,即内存中 ...

分类：其他好文时间：2016-12-28 07:38:11 阅读次数：161

python zip函数介绍

首先用help(zip)来看一下帮助文档：意思是说它返回的是一个元素都为tuple的list,第一个元素tuple由原先的序列1即seq1[0],序列2seq2[0],....组成，第二个元素tuple由seq1[1],seq2[0]....组成，以此类推。。。举例说明：1。这是比较正常的: ( ...

分类：编程语言时间：2016-12-25 23:43:40 阅读次数：303

pkill killall kill pidof

http://blog.csdn.net/whycold/article/details/11771841 http://www.cnblogs.com/rsky/p/4886043.html http://m.blog.csdn.net/article/details?id=52021259 we ...

分类：其他好文时间：2016-12-25 23:34:36 阅读次数：229

共1327条上一页 1 ... 88 89 90 91 92 ... 133 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)