搜索关键字：spark rdd，搜索到7287个结果！码迷,mamicode.com！

Spark Streaming对实时数据流进行分析处理，源源不断的从数据源接收数据切割成一个个时间间隔进行处理；流处理与批处理有明显区别，批处理中的数据有明显的边界、数据规模已知；而流处理数据流并没有边界，也未知数据规模； ...

分类：其他好文时间：2020-01-19 22:12:37 阅读次数：148

如何去创建项目这里就不对讲了，可以参考：https://www.cnblogs.com/braveym/p/12214367.html 先在pom.xml文件里面添加spark依赖包 <dependency> <groupId>org.apache.spark</groupId> <artifac ...

分类：编程语言时间：2020-01-19 19:04:13 阅读次数：84

sparkSessiontest

记事本内容：打印结构：结果展示： parquet的优势支持列存储+嵌套数据格式+适配多个计算框架节省表扫描时间和反序列的时间压缩技术稳定出色,节省存储空间 Spark操作 Parquet文件比操作CSV等普通文件的速度更快加载数据：sparkSession.read.parquet(“/ ...

分类：其他好文时间：2020-01-19 12:47:25 阅读次数：87

Spark union

比如两个rdd 两个分区合并去他们的并集 intersection 去数据的交集 subtract去差集 mappartition与map像是遍历的单位是每个pation分区的数据进来的是iterrter是迭代器 distinct去重(map+reducebykey+map) cogroup 作用在 ...

分类：其他好文时间：2020-01-19 11:04:30 阅读次数：97

Spark Shuffle

Shuffle基本流程 spark shuffle从总体来讲分成两部分，shuffle write和shuffle reader，如下图所示，看到这里，就明白了为什么spark性能优化的时候建议宁可broadcast也不要shuffle，broadcast好歹还是内存操作，网络上大一点压力（每个节点... ...

分类：其他好文时间：2020-01-19 09:27:09 阅读次数：63

Spark与Hadoop对比

一、运行速度方面： Spark把中间数据放到内存中，迭代运算效率高。 Hadoop MapReduce将计算结果保存到磁盘上，这样会影响整体速度，而Spark支持DAG图的分布式并行计算的编程框架，减少了迭代过程中数据的落地，提高了处理效率。二、容错方面： Spark引进了弹性分布式数据集RDD ...

分类：其他好文时间：2020-01-18 21:41:13 阅读次数：106

spark-mllib 密集向量和稀疏向量

MLlib支持局部向量和矩阵存储在单台服务器，也支持存储于一个或者多个rdd的分布式矩阵。局部向量和局部矩阵是用作公共接口的最简单的数据模型。基本的线性代数运算由Breeze提供。在监督学习中使用的训练示例在MLlib中称为“标记点”。因此，向量和矩阵，标记点是 spark-mllib基本的 ...

分类：其他好文时间：2020-01-18 21:17:43 阅读次数：86

Spark VectorSlice 向量切片

1、概念 VectorSlicer是一种转换器，它接受特征向量并输出带有原始特征子数组的新特征向量。这对于从向量列中提取特征很有用。 VectorSlicer接受具有指定索引的向量列，然后输出一个新的向量列，其值通过这些索引选择。索引有两种类型，整数索引，代表向量setIndices（）的索引。 ...

分类：其他好文时间：2020-01-18 16:23:28 阅读次数：101

Spark Imputer 归因估算器补全缺失值

1、概念 Imputer估计器使用缺失值所在列的平均值或中位数来完成数据集中的缺失值。输入列应为DoubleType或FloatType。当前，Imputer不支持分类特征，并且可能为包含分类特征的列创建不正确的值。 Imputer可以通过.setMissingValue（custom_value） ...

分类：其他好文时间：2020-01-18 14:42:29 阅读次数：150

【2020/1/18】寒假自学——学习进度报告2

写博客是时隔两天，但学习并没有停止。这一篇博客还是写一下关于Spark基础知识的，上次只是总体名词的理解。 Spark的核心是建立在统一的抽象RDD之上，使得Spark的各个组件可以无缝进行集成，在同一个应用程序中完成大数据计算任务于是RDD——由DAG图帮助形成的分布式内存的数据集帮助Spar ...

分类：其他好文时间：2020-01-18 14:39:51 阅读次数：104

共7287条上一页 1 ... 74 75 76 77 78 ... 729 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)