搜索关键字：RDD，搜索到1327个结果！码迷,mamicode.com！

spark RDD 常见操作

fold 操作区别与 co 1.mapValus 2.flatMapValues 3.comineByKey 4.foldByKey 5.reduceByKey 6.groupByKey 7.sortByKey 8.cogroup 9.join 10.LeftOutJoin 11.RightOu... ...

分类：其他好文时间：2018-01-16 13:58:44 阅读次数：341

SparkCore基础（二）

* SparkCore基础（二）继续探讨SparkCore，开门见山，不多废话。 SparkApplication结构探讨包含关系：之前我们运行过很多App了，其实每一个App都包含若干个Job任务；而Job任务呢，一般都是由RDD的Action动作发出的eg：first、count、col ...

分类：其他好文时间：2018-01-12 22:48:04 阅读次数：345

SparkCore基础（一）

* SparkCore基础（一）学习Spark，首先要熟悉Scala，当然你说你会Python或者Java能不能玩Spark？能！但是不推荐，首推Scala，因为Scala非常便捷，而且Scala有非常好的交互式编程体验（当然了，在这里，Python也不差）。其次呢，我们要对Hadoop的MapR ...

分类：其他好文时间：2018-01-12 22:39:57 阅读次数：1529

SparkStreaming基础

* SparkStreaming基础打开之前构建好的Maven工程，如何构建？请参看SparkCore基础（二）的最后部分。在SparkCore中，我们操作的数据都在RDD中，是Spark的一个抽象概念，也是一个抽象类，是由SparkContext对象sc转换得到的。那么在SparkStrea ...

分类：其他好文时间：2018-01-12 22:33:15 阅读次数：247

CacheManager 概述

1. CacheManager 管理缓存，而缓存可以是基于内存的缓存，也可以是基于磁盘的缓存 2. CacheManager 需要通过 BlockMananger 来操作数据； 3. 当 Task 运行的时候会调用 RDD 的 compute 方法来进行计算，而 compute 方法会调用 iter ...

分类：系统相关时间：2018-01-11 22:13:38 阅读次数：194

apache commons Math库简单实用

packagetest.ffm83.commons.math; importorg.apache.commons.math3.linear.Array2DRowRealMatrix; import org.apache.commons.math3.linear.LUDecomposition; im... ...

分类：Web程序时间：2018-01-11 16:10:04 阅读次数：225

RDD内存迭代原理

RDD(Resilient Distributed Datasets(弹性分布式数据集)) RDD从逻辑上看是一个抽象分布式数据集的概念,它的底层数据存储于集群中不同节点上的磁盘文件系统中,存储是按照分区(partition)方式进行存储;所有Spark操作都可以看成是一系列对RDD对象的操作,而R ...

分类：其他好文时间：2018-01-11 15:23:10 阅读次数：152

Spark之常用操作

-- 筛选 val rdd = sc.parallelize(List("ABC","BCD","DEF")) val filtered = rdd.filter(_.contains("C")) filtered.collect() Result: Array[String] = Array(AB... ...

分类：其他好文时间：2018-01-09 20:24:25 阅读次数：132

某人视频教学中提到的一些问题

1. RDD1 和 RDD2 进行 Join 操作，其中采用采样的方式发现 RDD1 中有严重的数据倾斜的 Key 第一步：采用 Spark RDD 中提供的采样接口，基于采样的数据可以计算出哪个（哪些）Key 的 Values 个数最多第二步：把全休数据分成两部分，即把原来一个RDD1 变成 ...

分类：其他好文时间：2018-01-08 22:29:10 阅读次数：196

Spark2.x AFTSurvivalRegression算法

Spark2.0的机器学习算法比之前的改变最大的是2.0基本采用了dataframe来实现的，但之前的都是用的RDD，看官网说貌似在3.0的时候RDD就不用了！还有一个就是hiveContext和sqlContext进行了合并，统一是sessioncontext。在spark.ml中，实现了加速失 ...

分类：编程语言时间：2018-01-07 20:19:22 阅读次数：1014

共1327条上一页 1 ... 61 62 63 64 65 ... 133 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)