fold 操作 区别 与 co 1.mapValus 2.flatMapValues 3.comineByKey 4.foldByKey 5.reduceByKey 6.groupByKey 7.sortByKey 8.cogroup 9.join 10.LeftOutJoin 11.RightOu... ...
分类:
其他好文 时间:
2018-01-16 13:58:44
阅读次数:
341
* SparkCore基础(二) 继续探讨SparkCore,开门见山,不多废话。 SparkApplication结构探讨 包含关系: 之前我们运行过很多App了,其实每一个App都包含若干个Job任务; 而Job任务呢,一般都是由RDD的Action动作发出的eg:first、count、col ...
分类:
其他好文 时间:
2018-01-12 22:48:04
阅读次数:
345
* SparkCore基础(一) 学习Spark,首先要熟悉Scala,当然你说你会Python或者Java能不能玩Spark?能!但是不推荐,首推Scala,因为Scala非常便捷,而且Scala有非常好的交互式编程体验(当然了,在这里,Python也不差)。其次呢,我们要对Hadoop的MapR ...
分类:
其他好文 时间:
2018-01-12 22:39:57
阅读次数:
1529
* SparkStreaming基础 打开之前构建好的Maven工程,如何构建?请参看SparkCore基础(二)的最后部分。 在SparkCore中,我们操作的数据都在RDD中,是Spark的一个抽象概念,也是一个抽象类,是由SparkContext对象sc转换得到的。 那么在SparkStrea ...
分类:
其他好文 时间:
2018-01-12 22:33:15
阅读次数:
247
1. CacheManager 管理缓存,而缓存可以是基于内存的缓存,也可以是基于磁盘的缓存 2. CacheManager 需要通过 BlockMananger 来操作数据; 3. 当 Task 运行的时候会调用 RDD 的 compute 方法来进行计算,而 compute 方法会调用 iter ...
分类:
系统相关 时间:
2018-01-11 22:13:38
阅读次数:
194
packagetest.ffm83.commons.math; importorg.apache.commons.math3.linear.Array2DRowRealMatrix; import org.apache.commons.math3.linear.LUDecomposition; im... ...
分类:
Web程序 时间:
2018-01-11 16:10:04
阅读次数:
225
RDD(Resilient Distributed Datasets(弹性分布式数据集)) RDD从逻辑上看是一个抽象分布式数据集的概念,它的底层数据存储于集群中不同节点上的磁盘文件系统中,存储是按照分区(partition)方式进行存储;所有Spark操作都可以看成是一系列对RDD对象的操作,而R ...
分类:
其他好文 时间:
2018-01-11 15:23:10
阅读次数:
152
-- 筛选 val rdd = sc.parallelize(List("ABC","BCD","DEF")) val filtered = rdd.filter(_.contains("C")) filtered.collect() Result: Array[String] = Array(AB... ...
分类:
其他好文 时间:
2018-01-09 20:24:25
阅读次数:
132
1. RDD1 和 RDD2 进行 Join 操作, 其中采用采样的方式发现 RDD1 中有严重的数据倾斜的 Key 第一步: 采用 Spark RDD 中提供的采样接口,基于采样的数据可以计算出哪个(哪些)Key 的 Values 个数最多 第二步:把全休数据分成两部分,即把原来一个RDD1 变成 ...
分类:
其他好文 时间:
2018-01-08 22:29:10
阅读次数:
196
Spark2.0的机器学习算法比之前的改变最大的是2.0基本采用了dataframe来实现的,但之前的都是用的RDD,看官网说貌似在3.0的时候RDD就不用了!还有一个就是hiveContext和sqlContext进行了合并,统一是sessioncontext。 在spark.ml中,实现了加速失 ...
分类:
编程语言 时间:
2018-01-07 20:19:22
阅读次数:
1014