码迷,mamicode.com
首页 >  
搜索关键字:spark streaming    ( 7556个结果
Spark
1、什么是Spark Spark是一种统一、快速、通用、可扩展的分布式大数据分析引擎。分布式体现在Spark一般情况是以集群模式存在,架构为Master/Slaver(主从结构)。大数据分析引擎体现在Spark能够分析数据,但是没有存储。一般线上的spark数据来源 (HDFS, Hive、Kafk ...
分类:其他好文   时间:2020-02-29 20:51:19    阅读次数:74
大数据08 流计算(高速 毫秒级)
静态数据:比如数据仓库中的数据, 类似三峡水库中的水. (数据挖掘, OLAP 分析工具) 流数据: 网络监控, 传感检测, 大量的, 流式的数据(不断的产生, 源源不断的到达). 比如 PM2.5 的检测, 这种需要实时的监控和处理(分析). 流数据的特性 推送的方式: 实时查询的结果 流计算应用 ...
分类:其他好文   时间:2020-02-29 20:39:25    阅读次数:96
大数据07 Spark
Spark 是基于内存的计算, 低延迟. Apache 基金会3大分布式系统开源项目 Hadoop, Spark, Storm (数据流) Spark 特点: 处理快, 容易使用(Java,Python,Scala,R). 通用性(包括SQL,机器学习, 流失计算), 运行模式多样 Spark生态系 ...
分类:其他好文   时间:2020-02-29 17:28:30    阅读次数:94
【华为云技术分享】快速理解spark-on-k8s中的external-shuffle-service
【摘要】 external-shuffle-service是Spark里面一个重要的特性,有了它后,executor可以在不同的stage阶段动态改变数量,大大提升集群资源利用率。但是这个特性当前在k8s上并不能很好的运行。让我们来看看,在k8s上要实现这个external-shuffle-serv ...
分类:其他好文   时间:2020-02-29 16:18:30    阅读次数:112
pyspark错误记录1: Py4JJavaError
错误代码: 完整错误信息为: Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe. : org.apache.hadoop.mapred.Inva ...
分类:编程语言   时间:2020-02-29 13:14:45    阅读次数:81
spark
1、spark基础,什么是spark Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态系统已经发展成为一个包含多个 子项目的集合,其 ...
分类:其他好文   时间:2020-02-29 11:38:28    阅读次数:70
1,Hadoop知识储备
Hadoop初学思维导图 1,Hadoop ··· Hadoop: Hadoop的核心由HDFS和MapReduce组成。HDFS是分布式文件系统,是Hadoop生态圈的分布式数据存储基石;MapReduce是计算组件,会被Spark取代。 ··· Hadoop生态圈: Hadoop生态圈是一系列用 ...
分类:其他好文   时间:2020-02-29 00:17:31    阅读次数:101
spark安装小白教程
本人情况: 首次接触大数据工具spark,只会python,sql; 不会java。 本机情况: win10新电脑,里面基本啥都没有,连java都没有 需求: 尝试单机安装spark,学习这个大数据工具,特来记录安装全过程。 第一步:安装JDK 1. 下载安装JDK JDK为java开发工具包(ja ...
分类:其他好文   时间:2020-02-28 22:20:00    阅读次数:71
simrank算法综合
1,栈溢出问题,主要原因:每个RDD会存储他的祖先,以便发生错误的时候,能够利用这种关系再次生成。算法类的spark程序,因为会迭代很多次,这种关系会变得很巨大,引发栈溢出问题 * 设置检查点 val sc = new SparkContext(conf) sc.setCheckpointDir(" ...
分类:编程语言   时间:2020-02-28 18:55:18    阅读次数:60
Spark调优(一)
一、对多次使用的RDD进行持久化 如何选择一种最合适的持久化策略? 默认情况下,性能最高的当然是MEMORY_ONLY,但前提是你的内存必须足够足够大, 可以绰绰有余地存放下整个RDD的所有数据。因为不进行序列化与反序列化操作,就避 免了这部分的性能开销;对这个RDD的后续算子操作,都是基于纯内存中 ...
分类:其他好文   时间:2020-02-28 14:18:23    阅读次数:60
7556条   上一页 1 ... 52 53 54 55 56 ... 756 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!