搜索关键字：spark streaming，搜索到7556个结果！码迷,mamicode.com！

Spark on Yarn

承接上一篇文档《Spark案例练习-打包提交》将spark应用运行在yarn集群上官网地址：http://spark.apache.org/docs/2.0.2/running-on-yarn.html 1. 在spark-env.sh中配置HADOOP_CONF_DIR 或者 YARN_CON ...

分类：其他好文时间：2020-05-19 01:07:50 阅读次数：53

Spark 中在处理大批量数据排序问题时，如何避免OOM

错误思想举个列子，当我们想要比较一个类型为 RDD[(Long, (String, Int))] 的RDD，让它先按Long分组，然后按int的值进行倒序排序，最容易想到的思维就是先分组，然后把Iterable 转换为 list，然后sortby,但是这样却有一个致命的缺点，就是Iterabl ...

分类：编程语言时间：2020-05-18 20:48:21 阅读次数：83

Spark 运行的4种模式

1. 4种运行模式概述图 1）本地(local)模式，用于开发测试 2）Standalone是Spark自带的，如果一个集群是Standalone的话，那么就需要在多台机器上同时部署spark环境，只要修改一台机器配置，就要同步到所有的机器上去，比较麻烦，生产环境中不采取。 3） Yarn生成环境下 ...

分类：其他好文时间：2020-05-18 18:12:35 阅读次数：67

java最新面试题及答案2020（二十三）

## java最新面试题2020# 一面 1. “Spark还有Ruby啊，会的挺多，既然你啥都会点咱们就不局限于Java了”2. 聊了聊美团实习的项目，聊到了Spark，然后说到了Spark相对于MapReduce的改进，然后3. “Spark熟吗”4. “那你这个需求怎么做的”5. “那咱们就从... ...

分类：编程语言时间：2020-05-18 14:31:41 阅读次数：162

spark：distinct算子实现原理

distinct的底层使用reducebykey巧妙实现去重逻辑 //使用reduceByKey或者groupbykey的shuffle去重思想rdd.map(key=>(key,null)).reduceByKey((key,value)=>key) .map(_._1) ...

分类：其他好文时间：2020-05-17 19:29:13 阅读次数：147

Spark 数据分析调优（一）

Apache Spark Job 调优以提高性能（一）假设你已经清楚了Spark 的 RDD 转换，Action 等内容。并且已经知道用web UI来理解为什么Job要花这么长时间时，Job、stage和task 也很清楚了。如果不清楚可以看我的视频（。。。。）在本文中，您将了解Spark程序 ...

分类：其他好文时间：2020-05-17 17:50:13 阅读次数：102

[随笔]VSCode Remote-ssh+云主机搭建pySpark学习环境

最近spark上机练习比较多，原先采用了虚拟机的方式做练习第一机器性能比较差，本地体验不好第二用vscode比较多，轻量好用又熟悉所以周末抽时间把环境布到开发机上去构建流程: 安装vscode 安装msys2/mingw等模拟shell环境，安装ssh相关组件这个可以偷个懒直接装 git ...

分类：其他好文时间：2020-05-16 18:39:35 阅读次数：133

Kafka学习之路

基础概念 Kafka最初是由Linkedin公司开发，是一个分布式、支持分区的、多副本的，基于zookeeper协调的分布式消息系统，可以实时的处理大量数据以满足各种需求场景：基于hadoop的批处理系统、低延迟的实时系统、storm/spark流式处理引擎、web/nginx日志、访问日志、消息服 ...

分类：其他好文时间：2020-05-16 00:14:31 阅读次数：73

在CDH中安装Spark2

第一步，需要在CDH上安装Spark 2，由于我的CDH是5.15.x，只能通过CDS的方式安装。官方指导在https://docs.cloudera.com/documentation/spark2/latest/topics/spark2.html。总结下，需要手动下载cds文件上传到CM服务 ...

分类：其他好文时间：2020-05-15 13:51:05 阅读次数：77

ModuleNotFoundError: No module named 'pyspark' 解决方案

出现问题的原因是在执行python xxx.py 时系统找不到相关资源 Windows中：由于我的Windows中没有装Spark，所以直接安装了Python的第三方包，pycharm中直接引用就行了 pip install pyspark Linux中：我的是Ubuntu18.04，自己在里面 ...

分类：其他好文时间：2020-05-15 09:58:55 阅读次数：408

共7556条上一页 1 ... 35 36 37 38 39 ... 756 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)