搜索关键字：spark rdd，搜索到7287个结果！码迷,mamicode.com！

SparkStreaming DStream转换

1、无状态转换操作（1）无状态转化操作就是把简单的RDD转化操作应用到每个批次上，也就是转换DStream中的每一个RDD。部分无状态转化操作：（2）尽管这些函数韩起来像作用在整个流上一样，但事实上每个DStream在内部是由许多RDD（批次）组成，且无状态转化操作是分别应用到每个RDD上。 ...

分类：其他好文时间：2019-12-19 17:38:47 阅读次数：92

小记--------sparksql和DataFrame的小小案例java、scala版本

sparksql是spark中的一个模块，主要用于进行结构化数据的处理，他提供的最核心的编程抽象，就是DataFrame。同时，sparksql还可以作为分布式的sql查询引擎。最最重要的功能就是从hive中查询数据。 Dataframe可以理解为：以列的形式组织的，分布式的数据集合。 Dataf ...

分类：数据库时间：2019-12-17 15:26:10 阅读次数：121

小记--------spark的worker原理分析及源码分析

Worker类源码位置： org.apache.spark.deploy.worker /** *启动driver的源码分析 */ case LaunchDriver(driverId, driverDesc) => logInfo(s"Asked to launch driver $driverI ...

分类：其他好文时间：2019-12-17 15:24:00 阅读次数：108

Tunning spark

Data Serialization 对spark程序来说，可能会产生的瓶颈包括：cpu，网络带宽，内存在任何分布式应用中数据序列化都非常重要，数据序列化带来的作用是什么？第一减少内存占用，第二减小网络传输带宽消耗。spark提供了两种序列化方式： 1.Java serialization 默认情 ...

分类：其他好文时间：2019-12-17 15:01:16 阅读次数：86

Spark-Core RDD中数据共享

我们进行 Spark 进行编程的时候，初始化工作是在driver端完成的，而实际的运行程序是在executor端进行，所以就涉及到了进程间的通讯，数据是需要序列化的 1、传递函数说明：（1）直接运行程序会报错：。因为用到了，所以对象 this需要序列化，才能把对象从driver ...

分类：其他好文时间：2019-12-17 13:07:58 阅读次数：84

安装spark遇到的问题

1.启动spark SQL时,报错: Caused by: org.datanucleus.store.rdbms.connectionpool.DatastoreDriverNotFoundException: The specified datastore driver ("com.mysql. ...

分类：其他好文时间：2019-12-17 00:31:15 阅读次数：110

流式计算（一）-Java8Stream

大约各位看官君多少也听说了Storm/Spark/Flink，这些都是大数据流式处理框架。如果一条手机组装流水线上不同的人做不同的事，有的装电池，有的装屏幕，直到最后完成，这就是典型的流式处理。如果手机组装是先全部装完电池，再交给装屏幕的组，直到完成，这就是旧式的集合式处理。今天，就来先说说JDK8 ...

分类：编程语言时间：2019-12-16 15:00:46 阅读次数：829

GeoSpark入门-可视化

GeoSpark是一种用于大规模空间数据处理的集群计算。 GeoSpark通过一组out of the box空间弹性分布式数据集( SRDDs ) 扩展 Apache Spark，它可以跨机器高效地加载。处理、分析、展示大规模空间数据。准备工作 1. Windows 和 spark 2. IDE ...

分类：其他好文时间：2019-12-16 13:28:59 阅读次数：440

Spark-Core RDD行动算子

1、reduce（func）通过func函数聚集RDD 中的所有元素，先聚合分区内数据，再聚合分区间数据。 2、collect 以的形式返回 RDD 中的所有元素. 所以要慎用 3、count 返回 RDD 中元素的个数. 4、take（n）返回 RDD 中组成的 . take 的数据也会 ...

分类：其他好文时间：2019-12-16 12:54:02 阅读次数：74

2. Spark GraphX解析

2.1 存储模式 2.1.1 图存储模式巨型图的存储总体上有边分割和点分割两种存储方式 1）边分割(Edge-Cut)：每个顶点都存储一次，但有的边会被打断分到两台机器上。这样做的好处是节省存储空间；坏处是对图进行基于边的计算时，对于一条两个顶点被分到不同机器上的边来说，要跨机器通信传输数据，内网 ...

分类：其他好文时间：2019-12-16 09:48:57 阅读次数：115

共7287条上一页 1 ... 84 85 86 87 88 ... 729 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)