Apache Spark Job 调优以提高性能(一) 假设你已经清楚了Spark 的 RDD 转换,Action 等内容。并且已经知道用web UI来理解为什么Job要花这么长时间时,Job、stage和task 也很清楚了。 如果不清楚可以看我的视频(。。。。) 在本文中,您将了解Spark程序 ...
分类:
其他好文 时间:
2020-05-17 17:50:13
阅读次数:
102
最近spark上机练习比较多,原先采用了虚拟机的方式做练习 第一机器性能比较差,本地体验不好 第二用vscode比较多,轻量好用又熟悉 所以周末抽时间把环境布到开发机上去 构建流程: 安装vscode 安装msys2/mingw等模拟shell环境,安装ssh相关组件 这个可以偷个懒直接装 git ...
分类:
其他好文 时间:
2020-05-16 18:39:35
阅读次数:
133
基础概念 Kafka最初是由Linkedin公司开发,是一个分布式、支持分区的、多副本的,基于zookeeper协调的分布式消息系统,可以实时的处理大量数据以满足各种需求场景:基于hadoop的批处理系统、低延迟的实时系统、storm/spark流式处理引擎、web/nginx日志、访问日志、消息服 ...
分类:
其他好文 时间:
2020-05-16 00:14:31
阅读次数:
73
第一步,需要在CDH上安装Spark 2,由于我的CDH是5.15.x,只能通过CDS的方式安装。官方指导在https://docs.cloudera.com/documentation/spark2/latest/topics/spark2.html。 总结下,需要手动下载cds文件上传到CM服务 ...
分类:
其他好文 时间:
2020-05-15 13:51:05
阅读次数:
77
出现问题的原因是在执行python xxx.py 时系统找不到相关资源 Windows中: 由于我的Windows中没有装Spark,所以直接安装了Python的第三方包,pycharm中直接引用就行了 pip install pyspark Linux中: 我的是Ubuntu18.04,自己在里面 ...
分类:
其他好文 时间:
2020-05-15 09:58:55
阅读次数:
408
概述: IoTDB 是针对时间序列数据收集、存储与分析一体化的数据管理引擎。它具有体量轻、性能高、易使用的特点,完美对接 Hadoop 与 Spark 生态, 适用于工业物联网应用中海量时间序列数据高速写入和复杂分析查询的需求。 安装环境: 1,安装前需要保证设备上配有JDK>=1.8的运行环境,并 ...
分类:
数据库 时间:
2020-05-14 19:32:44
阅读次数:
540
作为一个JVM进程,EXecutor的内存管理建立在JVM的内存管理之上,Spark对JVM的对内空间进行了更为详细的分配,以充分利用内存。同时,Spark引入了堆外内存,使之可以直接在工作节点的系统内存中开辟空间,进一步优化内存的使用。 堆内内存收到JVM统一管理,堆外内存是直接向操作系统进行内存 ...
分类:
其他好文 时间:
2020-05-13 23:30:58
阅读次数:
71
https://www.bilibili.com/video/av83930526/ https://blog.csdn.net/yuanbingze/article/details/51891222 ...
分类:
其他好文 时间:
2020-05-13 12:28:00
阅读次数:
56
在SparkSQL中Spark为我们提供了两个新的抽象,分别是DataFrame和DataSet。他们和RDD有什么区别呢?首先从版本的产生上来看:RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6) 如果同样的数据都给到这三个数据结构 ...
分类:
其他好文 时间:
2020-05-12 17:13:48
阅读次数:
220
public static Map<String,String> loadDataFromFile() { Map<String,String> map = new ConcurrentHashMap<>(); try { File file = new File("filename.txt"); ...
分类:
其他好文 时间:
2020-05-12 11:45:24
阅读次数:
82