累加器 序列化 宽窄依赖 窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用,窄依赖我形象的比喻为独生子女 宽依指的是多个子RDD的Partition会依赖同一个父RDD的 Partition,会引起shuffle.总结:宽依我们形象的比喻为超生 DAG DAG ...
分类:
其他好文 时间:
2020-01-22 12:44:35
阅读次数:
80
Shuffle基本流程 spark shuffle从总体来讲分成两部分,shuffle write和shuffle reader,如下图所示,看到这里,就明白了为什么spark性能优化的时候建议宁可broadcast也不要shuffle,broadcast好歹还是内存操作,网络上大一点压力(每个节点... ...
分类:
其他好文 时间:
2020-01-19 09:27:09
阅读次数:
63
1.spark 架构, scala,IDE,compiler,plugin,hadoop,resourcemanager,taskscheduler,line,递归函数,memory,shuffle, dag,stage,taskset, sparksql,rdd,dataframe 二维表格,sq ...
分类:
其他好文 时间:
2020-01-16 14:23:34
阅读次数:
118
"E. Inversions After Shuffle" 题意 有一个长 $n$ 的排列, 随机选取一段区间进行随机全排列, 求排列后整个序列的逆序对期望个数. $(n \le 10^5)$. 思路 首先, 考虑一整个排列进行排序后的逆序对期望个数, 一共有 $\frac{n(n 1)}{2}$ ...
分类:
编程语言 时间:
2020-01-13 21:48:42
阅读次数:
98
Shuffle a set of numbers without duplicates. Example: // Init an array with set 1, 2, and 3. int[] nums = {1,2,3}; Solution solution = new Solution(nu ...
分类:
其他好文 时间:
2020-01-12 10:10:14
阅读次数:
101
目录 遍历循环,按次数循环,遍历某个结构形成的循环运行方式 无限循环: randow库(产生随机数) 圆周率的计算: 遍历循环,按次数循环,遍历某个结构形成的循环运行方式 for <循环变量> in <遍历结构>: <语句块> 每次循环,所获元素放入循环变量,并执行一次语句块; 计数循环: for ...
分类:
编程语言 时间:
2020-01-10 20:02:03
阅读次数:
93
什么时候需要调节Executor的堆外内存大小? 当出现一下异常时: shuffle file cannot find,executor lost、task lost,out of memory 出现这种问题的现象大致有这么两种情况: 上述情况下,就可以去考虑调节一下executor的堆外内存。也许 ...
分类:
其他好文 时间:
2020-01-10 12:34:38
阅读次数:
91
导读目录 第一节:代码层面 1:RDD创建 2:算子 3:数据持久化算子 4:广播变量 5:累加器 6:开发流程 第二节:Shuffle优化层面 1:Shuffle 2:调优 第一节:代码层面 (1)RDD创建: Java: sc.textfile sc.parallelize() sc.paral ...
分类:
其他好文 时间:
2020-01-09 20:41:14
阅读次数:
78
我一直琢磨如何查看test_data的数据,因为它现在已经是 tf.data.Dataset类型了(https://tensorflow.google.cn/api_docs/python/tf/data/Dataset?version=stable#shuffle)原来用list强制转换就可以了呀 ...
分类:
其他好文 时间:
2020-01-08 12:24:09
阅读次数:
117