https://blog.csdn.net/u010697988/article/details/70173104 大数据的分布式计算框架目前使用的最多的就是hadoop的mapReduce和Spark,mapReducehe和Spark之间的最大区别是前者较偏向于离线处理,而后者重视实现性,下面主 ...
分类:
其他好文 时间:
2019-01-12 15:26:19
阅读次数:
148
val conf = new SparkConf().setAppName("WordCount_groupBy").setMaster("local") // .set("spark.default.parallelism", "100") // 1. 调节并行度 .set("spark.exec... ...
分类:
其他好文 时间:
2019-01-08 19:20:41
阅读次数:
157
Shuffle contents of multi files 现在有 1000 个文本文件(0.txt ~ 999.txt),每个文件大概 11M,总共 11G,我想把这 1000 个文本文件的内容随机组合成一个文件。 用 试了下,大概第 8 秒内存占用就达到 96%,然后就不再上涨了,最后大概用 ...
分类:
系统相关 时间:
2019-01-07 21:26:12
阅读次数:
201
hadoop的核心思想是MapReduce,但shuffle又是MapReduce的核心。shuffle的主要工作是从Map结束到Reduce开始之间的过程。Hadoop不仅仅是大数据技术的核心重点,还是我们面试官面试的时候经常会问道的问题,本文将详细介绍Hadoop的运行原理。 ...
分类:
其他好文 时间:
2019-01-03 19:25:12
阅读次数:
145
random seed 1.python 随机选择&生成随机数 使用random模块 random模块是采用Mersenne Twister 梅森旋转算法来计算随机数,是一个确定性算法 ...
分类:
其他好文 时间:
2019-01-03 15:41:46
阅读次数:
259
random Counter 默认值字典 栈和队列,双向队列 time functools random 主要是和随机相关的内容 ...
分类:
其他好文 时间:
2019-01-02 19:05:17
阅读次数:
194
快排 快排是另一个经典的排序算法,在实际中也被广泛地应用。 quicksort 快排的基本思想: 混洗(shuffle)打乱待排数组。 这样划分(partition)数组: 元素 a[j] 在排好的位置上。 j 左边元素都不大于 a[j]。 j 右边元素都不小于 a[j]。 递归地排好 j 的左边和 ...
分类:
其他好文 时间:
2019-01-02 17:34:42
阅读次数:
172
性能调优: 总则:加资源加并行度 简单直接,调节最优的资源配置 RDD架构和持久化 当可分配的资源无法达到更多的时候在考虑性能调优 从 重剑无锋 到 花拳绣腿 1.分配资源 并行度 RDD架构和缓存 2.shuffle调优 3.spark算子调优 4.JVM调优 、 广播大变量 分配哪些资源:exe ...
分类:
其他好文 时间:
2019-01-01 15:24:57
阅读次数:
225
一.random模块 随机 random() 随机小数 uninform(a,b) 随机小数 randint(a,b) 随机整数 choice() 随机选择一个 sample() 随机选择多个 shuffle() 打乱 二.Counter 计数 三.字典 1.默认值字典 2.有序字典 四.栈和队列 ...
分类:
编程语言 时间:
2018-12-31 17:21:30
阅读次数:
154
Shuffle a set of numbers without duplicates. Example: Runtime: 244 ms, faster than 36.91% of C++ online submissions for Shuffle an Array. ...
分类:
其他好文 时间:
2018-12-30 02:32:35
阅读次数:
201