面试常见问题,必备答案。 参考:https://blog.csdn.net/u010697988/article/details/70173104 mapReducehe和Spark之间的最大区别是前者较偏向于离线处理,而后者重视实效性,下面主要介绍mapReducehe和Spark两者的shuff ...
分类:
其他好文 时间:
2018-09-02 18:46:06
阅读次数:
179
import random random.seed(n) # 产生种子n对应的序列。初始化给定的随机数种子,默认为当前系统时间 random.random() # 生成一个[0.0, 1.0)之间的随机小数 random.randint(a, b) ... ...
分类:
其他好文 时间:
2018-09-01 23:44:16
阅读次数:
198
andom模块random.random()返回0到1之间的一个随机小数random.random()0.15331915985695865random.random()0.6973041759495626round(random.random()*100)13str(random.random())[2:]‘5091957416488744‘随机生成100以内的两位数int(ra
分类:
编程语言 时间:
2018-08-29 15:58:35
阅读次数:
170
``` numpy中利用random类获取随机数. numpy.random.random() 生成随机浮点数 默认为生成一个随机的浮点数,范围是在0.0~1.0之间,也可以通过参数size设置返回数据的size; 生成一个随机的浮点数: import numpy n = numpy.random.... ...
分类:
编程语言 时间:
2018-08-29 14:57:21
阅读次数:
242
spark一个最重要的特性就是对数据集在各个节点的分区进行控制。控制数据分布可以减少网络开销,极大地提升整体性能。spark core之数据分区主要包括:分区器、影响分区的算子操作、repartition和partitionby的区别、repartition和coalesce的区别、实例分析。
分类:
其他好文 时间:
2018-08-26 01:15:24
阅读次数:
210
一、K近邻算法基础 KNN K近邻算法 K-Nearest Neighbors 思想极度简单 应用数学知识少 (近乎为零) 效果好(缺点?) 可以解释机器学习算法使用过程中很多细节问题 更完整的刻画机器学习应用的流程 kNN的过程 二、scikit-learn 中的机器学习算法封装KNN/KNNN. ...
分类:
编程语言 时间:
2018-08-25 13:57:39
阅读次数:
268
import random li = [] def fahongbao(money,num=6): if money > 0 and num != 1: n = round(random.uniform(0.01,money - (0.01 * num)),2) num -= 1 li.append... ...
分类:
编程语言 时间:
2018-08-23 22:13:46
阅读次数:
288
DAGScheduler stage 划分算法 stage划分算法很重要,对于spark开发人员来说,必须对stage划分算法很清晰,知道自己编写的spark Application被划分成了几个job,每个job被划分成了几个stage,每个stage包括哪些代码,这样当发现哪个stage报错或者 ...
分类:
编程语言 时间:
2018-08-22 17:03:21
阅读次数:
185
相对于编译型语言存在的,源代码不是直接翻译成机器语言,而是先翻译成中间代码,再由解释器对中间代码进行解释运行。比如Python/JavaScript / Perl /Shell等都是解释型语言。 解释型语言:程序不需要编译,程序在运行时才翻译成机器语言,每执 行一次都要翻译一次。因此效率比较低。比如 ...
分类:
编程语言 时间:
2018-07-29 15:15:04
阅读次数:
132