码迷,mamicode.com
首页 >  
搜索关键字:spark rdd    ( 7287个结果
SparkStreaming DStream转换
1、无状态转换操作 (1)无状态转化操作就是把简单的RDD转化操作应用到每个批次上,也就是转换DStream中的每一个RDD。 部分无状态转化操作: (2)尽管这些函数韩起来像作用在整个流上一样,但事实上每个DStream在内部是由许多RDD(批次)组成,且无状态转化操作是分别应用到每个RDD上。 ...
分类:其他好文   时间:2019-12-19 17:38:47    阅读次数:92
小记--------sparksql和DataFrame的小小案例java、scala版本
sparksql是spark中的一个模块,主要用于进行结构化数据的处理,他提供的最核心的编程抽象,就是DataFrame。同时,sparksql还可以作为分布式的sql查询引擎。 最最重要的功能就是从hive中查询数据。 Dataframe可以理解为:以列的形式组织的,分布式的数据集合。 Dataf ...
分类:数据库   时间:2019-12-17 15:26:10    阅读次数:121
小记--------spark的worker原理分析及源码分析
Worker类源码位置: org.apache.spark.deploy.worker /** *启动driver的源码分析 */ case LaunchDriver(driverId, driverDesc) => logInfo(s"Asked to launch driver $driverI ...
分类:其他好文   时间:2019-12-17 15:24:00    阅读次数:108
Tunning spark
Data Serialization 对spark程序来说,可能会产生的瓶颈包括:cpu,网络带宽,内存 在任何分布式应用中数据序列化都非常重要,数据序列化带来的作用是什么?第一减少内存占用,第二减小网络传输带宽消耗。spark提供了两种序列化方式: 1.Java serialization 默认情 ...
分类:其他好文   时间:2019-12-17 15:01:16    阅读次数:86
Spark-Core RDD中数据共享
我们进行 Spark 进行编程的时候, 初始化工作是在driver端完成的 ,而 实际的运行程序是在executor端进行 ,所以就涉及到了进程间的通讯,数据是需要序列化的 1、传递函数 说明: (1)直接运行程序会报错: 。因为 用到了 ,所以对象 this需要序列化 , 才能把对象从driver ...
分类:其他好文   时间:2019-12-17 13:07:58    阅读次数:84
安装spark遇到的问题
1.启动spark SQL时,报错: Caused by: org.datanucleus.store.rdbms.connectionpool.DatastoreDriverNotFoundException: The specified datastore driver ("com.mysql. ...
分类:其他好文   时间:2019-12-17 00:31:15    阅读次数:110
流式计算(一)-Java8Stream
大约各位看官君多少也听说了Storm/Spark/Flink,这些都是大数据流式处理框架。如果一条手机组装流水线上不同的人做不同的事,有的装电池,有的装屏幕,直到最后完成,这就是典型的流式处理。如果手机组装是先全部装完电池,再交给装屏幕的组,直到完成,这就是旧式的集合式处理。今天,就来先说说JDK8 ...
分类:编程语言   时间:2019-12-16 15:00:46    阅读次数:829
GeoSpark入门-可视化
GeoSpark是一种用于大规模空间数据处理的集群计算。 GeoSpark通过一组out of the box空间弹性分布式数据集( SRDDs ) 扩展 Apache Spark,它可以跨机器高效地加载。处理、分析、展示大规模空间数据。 准备工作 1. Windows 和 spark 2. IDE ...
分类:其他好文   时间:2019-12-16 13:28:59    阅读次数:440
Spark-Core RDD行动算子
1、reduce(func) 通过func函数聚集RDD 中的所有元素, 先聚合分区内数据,再聚合分区间数据。 2、collect 以 的形式返回 RDD 中的所有元素. 所以要慎用 3、count 返回 RDD 中元素的个数. 4、take(n) 返回 RDD 中 组成的 . take 的数据也会 ...
分类:其他好文   时间:2019-12-16 12:54:02    阅读次数:74
2. Spark GraphX解析
2.1 存储模式 2.1.1 图存储模式 巨型图的存储总体上有边分割和点分割两种存储方式 1)边分割(Edge-Cut):每个顶点都存储一次,但有的边会被打断分到两台机器上。这样做的好处是节省存储空间;坏处是对图进行基于边的计算时,对于一条两个顶点被分到不同机器上的边来说,要跨机器通信传输数据,内网 ...
分类:其他好文   时间:2019-12-16 09:48:57    阅读次数:115
7287条   上一页 1 ... 84 85 86 87 88 ... 729 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!