一、运行速度方面: Spark把中间数据放到内存中,迭代运算效率高。 Hadoop MapReduce将计算结果保存到磁盘上,这样会影响整体速度,而Spark支持DAG图的分布式并行计算的编程框架,减少了迭代过程中数据的落地,提高了处理效率。 二、容错方面: Spark引进了弹性分布式数据集RDD ...
分类:
其他好文 时间:
2020-01-18 21:41:13
阅读次数:
106
MLlib支持局部向量和矩阵存储在单台服务器,也支持存储于一个或者多个rdd的分布式矩阵 。局部向量和局部矩阵是用作公共接口的最简单的数据模型。 基本的线性代数运算由Breeze提供。在监督学习中使用的训练示例在MLlib中称为“标记点”。 因此,向量和 矩阵,标记点是 spark-mllib基本的 ...
分类:
其他好文 时间:
2020-01-18 21:17:43
阅读次数:
86
1、概念 VectorSlicer是一种转换器,它接受特征向量并输出带有原始特征子数组的新特征向量。这对于从向量列中提取特征很有用。 VectorSlicer接受具有指定索引的向量列,然后输出一个新的向量列,其值通过这些索引选择。索引有两种类型, 整数索引,代表向量setIndices()的索引。 ...
分类:
其他好文 时间:
2020-01-18 16:23:28
阅读次数:
101
1、概念 Imputer估计器使用缺失值所在列的平均值或中位数来完成数据集中的缺失值。输入列应为DoubleType或FloatType。当前,Imputer不支持分类特征,并且可能为包含分类特征的列创建不正确的值。 Imputer可以通过.setMissingValue(custom_value) ...
分类:
其他好文 时间:
2020-01-18 14:42:29
阅读次数:
150
写博客是时隔两天,但学习并没有停止。 这一篇博客还是写一下关于Spark基础知识的,上次只是总体名词的理解。 Spark的核心是建立在统一的抽象RDD之上,使得Spark的各个组件可以无缝进行集成,在同一个应用程序中完成大数据计算任务 于是RDD——由DAG图帮助形成的分布式内存的数据集帮助Spar ...
分类:
其他好文 时间:
2020-01-18 14:39:51
阅读次数:
104
紧接上一次。 这次是对于spark安装的总结。 首先便是下载spark。 从官网上可以找到用户提供Hadoop环境的安装包,另外值得一提的是用户也可以无需自己安装hadoop而是选择原装包括了hadoop的安装包。 放入虚拟机之后解压缩,修改权限,之后就可以开始配置了。 配置文件需要配置slaves ...
分类:
其他好文 时间:
2020-01-18 14:25:52
阅读次数:
82
注意 +与,的区别 , 代码 1 println("hello","张三") 结果 (hello,张三) + 代码 1 println("hello"+"张三") 结果 hello张三 实例代码: 1 val name = "张三" 2 val age = 18.0 3 // 文字'f' 插值器允许 ...
分类:
其他好文 时间:
2020-01-18 14:21:20
阅读次数:
74
class 类似Java中的class case class 被称为样例类,是一种也输的类,常被用于模式匹配 具体区别: 1,初始化的时候可以不用new ,也可以加上,但是普通类必须加上new 2,默认实现了equals、hashCode方法 3,默认是可以序列化的,实现了Serializable ...
分类:
其他好文 时间:
2020-01-18 14:20:35
阅读次数:
103
SparkContext SparkContext 是在 spark 库中定义的一个类,作为 spark 库的入口点; 它表示连接到 spark,在进行 spark 操作之前必须先创建一个 SparkContext 的实例,并且只能创建一个; 利用 SparkContext 实例创建的对象都是 RD ...
分类:
其他好文 时间:
2020-01-18 12:44:55
阅读次数:
66
请用脚本的方式编程计算并输出下列级数的前 n 项之和 Sn,直到 Sn 刚好大于或等于 q 为止,其中 q 为大于 0 的整数,其值通过键盘输入。 ? ? 例如,若 q 的值为 50.0,则输出应为:Sn=50.416695。请将源文件保存为 exercise2-1.scala,在 REPL模式下测 ...
分类:
其他好文 时间:
2020-01-17 20:55:59
阅读次数:
239