搜索关键字：RDD，搜索到1327个结果！码迷,mamicode.com！

Spark join 源码跟读记录

rdd.join的实现：rdd1.join(rdd2) => rdd1.cogroup(rdd2,partitioner) 这是CoGroupedRDD的类声明，其中有两个与java 语法的不同： 1.类型声明中的小于号“<”,这个在scala 中叫做变量类型的上界，也就是原类型应该是右边类型的子类 ...

分类：其他好文时间：2016-12-24 20:10:13 阅读次数：227

Spark 开发中遇到的一些问题

1.StackOverflowError 问题：简单代码记录 : for (day <- days){ 　　rdd = rdd.union(sc.textFile(/path/to/day) .... ) } ...

分类：其他好文时间：2016-12-24 01:30:50 阅读次数：298

SparkStreaming实现Exactly-Once语义

作者：Syn良子出处：http://www.cnblogs.com/cssdongl 转载请注明出处译自:http://blog.cloudera.com/blog/2015/03/exactly-once-spark-streaming-from-apache-kafka/ 查资料时发现上面这 ...

分类：其他好文时间：2016-12-22 14:33:56 阅读次数：1192

Spark之键值RDD转换(转载)

1.mapValus(fun):对[K,V]型数据中的V值map操作(例1)：对每个的的年龄加2 object MapValues { def main(args: Array[String]) { val conf = new SparkConf().setMaster("local").setA ...

分类：其他好文时间：2016-12-22 11:39:59 阅读次数：227

2016年终总结

1.spark core ：Spark RDD 核心总结;Spark算子选择策略;spark 核心作业调度和任务调度;spark参数调优 ;Spark 运行架构核心总结;Spark Shuffle原理、Shuffle操作问题解决和参数调优 2.spark sql 或者SQL 方面：这方面一直没有机会 ...

分类：其他好文时间：2016-12-18 21:12:00 阅读次数：172

Spark-RDD/DataFrame/DateSet

RDD 优点: 编译时类型安全编译时就能检查出类型错误面向对象的编程风格直接通过类名点的方式来操作数据缺点: 序列化和反序列化的性能开销无论是集群间的通信, 还是IO操作都需要对对象的结构和数据进行序列化和反序列化. GC的性能开销频繁的创建和销毁对象, 势必会增加GCimport org.ap... ...

分类：其他好文时间：2016-12-14 21:52:16 阅读次数：390

python基础之文件操作

一：知识点对文件的访问方式一般有三种模式：读模式（'r'）、写模式（'w'）或追加模式（'a'）. 另外两种可混合使用的模式: 二进制模式（‘b’）,读/写模式（‘+’）。如：‘rb’：读取二进制文件模式 ‘r+’：可读可写模式写文件的流程：1：可写方式打开文件 2：写文件操作 3：关闭文件 ...

分类：编程语言时间：2016-12-14 11:40:35 阅读次数：266

Spark会把数据都载入到内存么？

前言很多初学者其实对Spark的编程模式还是RDD这个概念理解不到位，就会产生一些误解。比如，很多时候我们常常以为一个文件是会被完整读入到内存，然后做各种变换，这很可能是受两个概念的误导：如果你没有主动对RDDCache/Persist,它不过是一个概念上存在的虚拟数据集，你实际上是看不到这个 ...

分类：其他好文时间：2016-12-09 08:01:25 阅读次数：139

Spark 开发调优（一）

Spark性能优化 - 开发调优优化一避免创建重复的RDD通常来说，我们在开发一个Spark作业时，首先是基于某个数据源（比如Hive表或HDFS文件）创建一个初始的RDD；接着对这个RDD执行某...

分类：其他好文时间：2016-12-07 14:29:34 阅读次数：164

spark学习总结

Spark总结 Spark Engine RDD 弹性分布式数据集 partitons组成的，partition一定是一个具体的概念，就是一段连续的数据在某个物理节点 1,由一组partitions组成 2,应用在RDD上面的算子，会被应用到每一个partitions上面去 3,每一个RDD需要有依 ...

分类：其他好文时间：2016-12-05 20:09:56 阅读次数：272

共1327条上一页 1 ... 89 90 91 92 93 ... 133 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)