码迷,mamicode.com
首页 >  
搜索关键字:spark rdd    ( 7287个结果
Spark Streaming数据限流简述
  Spark Streaming对实时数据流进行分析处理,源源不断的从数据源接收数据切割成一个个时间间隔进行处理;    流处理与批处理有明显区别,批处理中的数据有明显的边界、数据规模已知;而流处理数据流并没有边界,也未知数据规模;    ...
分类:其他好文   时间:2020-01-19 22:12:37    阅读次数:148
IDEA开发java版本spark程序
如何去创建项目这里就不对讲了,可以参考 :https://www.cnblogs.com/braveym/p/12214367.html 先在pom.xml文件里面添加spark依赖包 <dependency> <groupId>org.apache.spark</groupId> <artifac ...
分类:编程语言   时间:2020-01-19 19:04:13    阅读次数:84
sparkSessiontest
记事本内容: 打印结构: 结果展示: parquet的优势 支持列存储+嵌套数据格式+适配多个计算框架 节省表扫描时间和反序列的时间 压缩技术稳定出色,节省存储空间 Spark操作 Parquet文件比操作CSV等普通文件的速度更快 加载数据:sparkSession.read.parquet(“/ ...
分类:其他好文   时间:2020-01-19 12:47:25    阅读次数:87
Spark union
比如两个rdd 两个分区合并去他们的并集 intersection 去数据的交集 subtract去差集 mappartition与map像是遍历的单位是每个pation分区的数据进来的是iterrter是迭代器 distinct去重(map+reducebykey+map) cogroup 作用在 ...
分类:其他好文   时间:2020-01-19 11:04:30    阅读次数:97
Spark Shuffle
Shuffle基本流程 spark shuffle从总体来讲分成两部分,shuffle write和shuffle reader,如下图所示,看到这里,就明白了为什么spark性能优化的时候建议宁可broadcast也不要shuffle,broadcast好歹还是内存操作,网络上大一点压力(每个节点... ...
分类:其他好文   时间:2020-01-19 09:27:09    阅读次数:63
Spark与Hadoop对比
一、运行速度方面: Spark把中间数据放到内存中,迭代运算效率高。 Hadoop MapReduce将计算结果保存到磁盘上,这样会影响整体速度,而Spark支持DAG图的分布式并行计算的编程框架,减少了迭代过程中数据的落地,提高了处理效率。 二、容错方面: Spark引进了弹性分布式数据集RDD  ...
分类:其他好文   时间:2020-01-18 21:41:13    阅读次数:106
spark-mllib 密集向量和稀疏向量
MLlib支持局部向量和矩阵存储在单台服务器,也支持存储于一个或者多个rdd的分布式矩阵 。局部向量和局部矩阵是用作公共接口的最简单的数据模型。 基本的线性代数运算由Breeze提供。在监督学习中使用的训练示例在MLlib中称为“标记点”。 因此,向量和 矩阵,标记点是 spark-mllib基本的 ...
分类:其他好文   时间:2020-01-18 21:17:43    阅读次数:86
Spark VectorSlice 向量切片
1、概念 VectorSlicer是一种转换器,它接受特征向量并输出带有原始特征子数组的新特征向量。这对于从向量列中提取特征很有用。 VectorSlicer接受具有指定索引的向量列,然后输出一个新的向量列,其值通过这些索引选择。索引有两种类型, 整数索引,代表向量setIndices()的索引。 ...
分类:其他好文   时间:2020-01-18 16:23:28    阅读次数:101
Spark Imputer 归因估算器 补全缺失值
1、概念 Imputer估计器使用缺失值所在列的平均值或中位数来完成数据集中的缺失值。输入列应为DoubleType或FloatType。当前,Imputer不支持分类特征,并且可能为包含分类特征的列创建不正确的值。 Imputer可以通过.setMissingValue(custom_value) ...
分类:其他好文   时间:2020-01-18 14:42:29    阅读次数:150
【2020/1/18】寒假自学——学习进度报告2
写博客是时隔两天,但学习并没有停止。 这一篇博客还是写一下关于Spark基础知识的,上次只是总体名词的理解。 Spark的核心是建立在统一的抽象RDD之上,使得Spark的各个组件可以无缝进行集成,在同一个应用程序中完成大数据计算任务 于是RDD——由DAG图帮助形成的分布式内存的数据集帮助Spar ...
分类:其他好文   时间:2020-01-18 14:39:51    阅读次数:104
7287条   上一页 1 ... 74 75 76 77 78 ... 729 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!