码迷,mamicode.com
首页 >  
搜索关键字:spark 1.0.0    ( 7001个结果
Kafka学习之路
基础概念 Kafka最初是由Linkedin公司开发,是一个分布式、支持分区的、多副本的,基于zookeeper协调的分布式消息系统,可以实时的处理大量数据以满足各种需求场景:基于hadoop的批处理系统、低延迟的实时系统、storm/spark流式处理引擎、web/nginx日志、访问日志、消息服 ...
分类:其他好文   时间:2020-05-16 00:14:31    阅读次数:73
在CDH中安装Spark2
第一步,需要在CDH上安装Spark 2,由于我的CDH是5.15.x,只能通过CDS的方式安装。官方指导在https://docs.cloudera.com/documentation/spark2/latest/topics/spark2.html。 总结下,需要手动下载cds文件上传到CM服务 ...
分类:其他好文   时间:2020-05-15 13:51:05    阅读次数:77
ModuleNotFoundError: No module named 'pyspark' 解决方案
出现问题的原因是在执行python xxx.py 时系统找不到相关资源 Windows中: 由于我的Windows中没有装Spark,所以直接安装了Python的第三方包,pycharm中直接引用就行了 pip install pyspark Linux中: 我的是Ubuntu18.04,自己在里面 ...
分类:其他好文   时间:2020-05-15 09:58:55    阅读次数:408
初识 IoTdb 时间序列数据库(一)
概述: IoTDB 是针对时间序列数据收集、存储与分析一体化的数据管理引擎。它具有体量轻、性能高、易使用的特点,完美对接 Hadoop 与 Spark 生态, 适用于工业物联网应用中海量时间序列数据高速写入和复杂分析查询的需求。 安装环境: 1,安装前需要保证设备上配有JDK>=1.8的运行环境,并 ...
分类:数据库   时间:2020-05-14 19:32:44    阅读次数:540
内存管理
作为一个JVM进程,EXecutor的内存管理建立在JVM的内存管理之上,Spark对JVM的对内空间进行了更为详细的分配,以充分利用内存。同时,Spark引入了堆外内存,使之可以直接在工作节点的系统内存中开辟空间,进一步优化内存的使用。 堆内内存收到JVM统一管理,堆外内存是直接向操作系统进行内存 ...
分类:其他好文   时间:2020-05-13 23:30:58    阅读次数:71
spark读取hbase数据
https://www.bilibili.com/video/av83930526/ https://blog.csdn.net/yuanbingze/article/details/51891222 ...
分类:其他好文   时间:2020-05-13 12:28:00    阅读次数:56
RDD和DataFrame和DataSet三者间的区别
在SparkSQL中Spark为我们提供了两个新的抽象,分别是DataFrame和DataSet。他们和RDD有什么区别呢?首先从版本的产生上来看:RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6) 如果同样的数据都给到这三个数据结构 ...
分类:其他好文   时间:2020-05-12 17:13:48    阅读次数:220
spark之从外部文件获取广播变量
public static Map<String,String> loadDataFromFile() { Map<String,String> map = new ConcurrentHashMap<>(); try { File file = new File("filename.txt"); ...
分类:其他好文   时间:2020-05-12 11:45:24    阅读次数:82
Spark的Job的划分
Job的划分 1、Application : 应用,创建一个SparkContext可以认为创建了一个Application 2、Job 在一个app中每执行一次行动算子 就会创建一个Job,一个application会有多个job 3、stage 阶段,每碰到一个shuffle算子,会产生一个新的 ...
分类:其他好文   时间:2020-05-11 23:56:54    阅读次数:213
Spark性能优化指南——高级篇
Spark性能优化指南——高级篇 2016年05月12日 作者: 李雪蕤 文章链接 23095字 47分钟阅读 继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。 ...
分类:其他好文   时间:2020-05-11 23:20:20    阅读次数:91
7001条   上一页 1 ... 33 34 35 36 37 ... 701 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!