码迷,mamicode.com
首页 >  
搜索关键字:RDD    ( 1327个结果
spark RDD 常见操作
fold 操作 区别 与 co 1.mapValus 2.flatMapValues 3.comineByKey 4.foldByKey 5.reduceByKey 6.groupByKey 7.sortByKey 8.cogroup 9.join 10.LeftOutJoin 11.RightOu... ...
分类:其他好文   时间:2018-01-16 13:58:44    阅读次数:341
SparkCore基础(二)
* SparkCore基础(二) 继续探讨SparkCore,开门见山,不多废话。 SparkApplication结构探讨 包含关系: 之前我们运行过很多App了,其实每一个App都包含若干个Job任务; 而Job任务呢,一般都是由RDD的Action动作发出的eg:first、count、col ...
分类:其他好文   时间:2018-01-12 22:48:04    阅读次数:345
SparkCore基础(一)
* SparkCore基础(一) 学习Spark,首先要熟悉Scala,当然你说你会Python或者Java能不能玩Spark?能!但是不推荐,首推Scala,因为Scala非常便捷,而且Scala有非常好的交互式编程体验(当然了,在这里,Python也不差)。其次呢,我们要对Hadoop的MapR ...
分类:其他好文   时间:2018-01-12 22:39:57    阅读次数:1529
SparkStreaming基础
* SparkStreaming基础 打开之前构建好的Maven工程,如何构建?请参看SparkCore基础(二)的最后部分。 在SparkCore中,我们操作的数据都在RDD中,是Spark的一个抽象概念,也是一个抽象类,是由SparkContext对象sc转换得到的。 那么在SparkStrea ...
分类:其他好文   时间:2018-01-12 22:33:15    阅读次数:247
CacheManager 概述
1. CacheManager 管理缓存,而缓存可以是基于内存的缓存,也可以是基于磁盘的缓存 2. CacheManager 需要通过 BlockMananger 来操作数据; 3. 当 Task 运行的时候会调用 RDD 的 compute 方法来进行计算,而 compute 方法会调用 iter ...
分类:系统相关   时间:2018-01-11 22:13:38    阅读次数:194
apache commons Math库简单实用
packagetest.ffm83.commons.math; importorg.apache.commons.math3.linear.Array2DRowRealMatrix; import org.apache.commons.math3.linear.LUDecomposition; im... ...
分类:Web程序   时间:2018-01-11 16:10:04    阅读次数:225
RDD内存迭代原理
RDD(Resilient Distributed Datasets(弹性分布式数据集)) RDD从逻辑上看是一个抽象分布式数据集的概念,它的底层数据存储于集群中不同节点上的磁盘文件系统中,存储是按照分区(partition)方式进行存储;所有Spark操作都可以看成是一系列对RDD对象的操作,而R ...
分类:其他好文   时间:2018-01-11 15:23:10    阅读次数:152
Spark之常用操作
-- 筛选 val rdd = sc.parallelize(List("ABC","BCD","DEF")) val filtered = rdd.filter(_.contains("C")) filtered.collect() Result: Array[String] = Array(AB... ...
分类:其他好文   时间:2018-01-09 20:24:25    阅读次数:132
某人视频教学中提到的一些问题
1. RDD1 和 RDD2 进行 Join 操作, 其中采用采样的方式发现 RDD1 中有严重的数据倾斜的 Key 第一步: 采用 Spark RDD 中提供的采样接口,基于采样的数据可以计算出哪个(哪些)Key 的 Values 个数最多 第二步:把全休数据分成两部分,即把原来一个RDD1 变成 ...
分类:其他好文   时间:2018-01-08 22:29:10    阅读次数:196
Spark2.x AFTSurvivalRegression算法
Spark2.0的机器学习算法比之前的改变最大的是2.0基本采用了dataframe来实现的,但之前的都是用的RDD,看官网说貌似在3.0的时候RDD就不用了!还有一个就是hiveContext和sqlContext进行了合并,统一是sessioncontext。 在spark.ml中,实现了加速失 ...
分类:编程语言   时间:2018-01-07 20:19:22    阅读次数:1014
1327条   上一页 1 ... 61 62 63 64 65 ... 133 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!