Spark Streaming 是什么 1、SPark Streaming 是 Spark 中一个组件,基于 Spark Core 进行构建,用于对流式进行处理,类似于 Storm。2、Spark Streaming 能够和 Spark Core、Spark SQL 来进行混合编程。3、Spark ...
分类:
其他好文 时间:
2020-05-29 19:33:56
阅读次数:
53
Spark 通信架构 1、spark 一开始使用 akka 作为网络通信框架,spark 2.X 版本以后完全抛弃 akka,而使用 netty 作为新的网络通信框架。最主要原因:spark 对 akka 没有维护,需要 akka 更新,spark 的发展受到了 akka 的牵制,akka 版本之间 ...
分类:
其他好文 时间:
2020-05-29 19:20:02
阅读次数:
70
在HTML文件的“”标签之间输入以下语句并用手机打开即可看到效果: <meta name="viewport" content="width=device-width,height=device-height,inital-scale=1.0,maximum-scale=1.0,user-scala ...
分类:
移动开发 时间:
2020-05-29 19:16:52
阅读次数:
89
Spark GraphX 概述 1、Spark GraphX是什么? (1)Spark GraphX 是 Spark 的一个模块,主要用于进行以图为核心的计算还有分布式图的计算。 (2)GraphX 他的底层计算也是 RDD 计算,它和 RDD 共用一种存储形态,在展示形态上可以以数据集来表示,也可 ...
分类:
其他好文 时间:
2020-05-29 19:11:36
阅读次数:
58
场景 HSSFworkbook,XSSFworkbook,SXSSFworkbook区别 HSSFWorkbook: 是操作Excel2003以前(包括2003)的版本,扩展名是.xls;导出excel最常用的方式;但是此种方式的局限就是导出的行数至多为65535行,超出65536条后系统就会报错。 ...
所谓双Value,就是两个数据集RDD之间进行操作。 1 union(otherDataset):对源RDD和参数RDD合并后返回一个新的RDD,不会去重 val listRDD1: RDD[Int] = sc.makeRDD(1 to 5) val listRDD2: RDD[Int] = sc. ...
分类:
其他好文 时间:
2020-05-28 23:28:27
阅读次数:
71
地址 官网地址: http://spark.apache.org/ 文档查看地址: https://spark.apache.org/docs/2.1.1/ 下载地址: https://spark.apache.org/downloads.html 集群规划 首先我们要确认我们的Linux主机是否安 ...
分类:
其他好文 时间:
2020-05-28 23:25:13
阅读次数:
70
###1.大数据架构 说明: 1.该大数据平台采用的阿里云服务器,所以在集群部署和运维上会减少很多工作量 2.主题的计算引擎采用Spark,部分有Flink 3.数据挖掘主要是应用python的一些挖掘框架,模型比如词袋模型和一些常见的nlp算法 4.任务调度是自研的诸葛大数据调度平台 ...
分类:
其他好文 时间:
2020-05-28 11:34:57
阅读次数:
68
https://blog.csdn.net/BigData_Mining/article/details/88529157 API Server作为Kubernetes网关,是访问和管理资源对象的唯一入口,其各种集群组件访问资源都需要经过网关才能进行正常访问和管理。每一次的访问请求都需要进行合法性的 ...
分类:
Web程序 时间:
2020-05-27 20:33:51
阅读次数:
98
问题导读:spark缓存是如何实现的?BlockManager与BlockManagerMaster的关系是什么? 这个persist方法是在RDD里面的,所以我们直接打开RDD这个类。 defpersist(newLevel:StorageLevel):this.type = { // Stora ...
分类:
其他好文 时间:
2020-05-27 15:59:00
阅读次数:
71