搜索关键字：spark streaming state更新，搜索到7566个结果！码迷,mamicode.com！

安装spark遇到的问题

1.启动spark SQL时,报错: Caused by: org.datanucleus.store.rdbms.connectionpool.DatastoreDriverNotFoundException: The specified datastore driver ("com.mysql. ...

分类：其他好文时间：2019-12-17 00:31:15 阅读次数：110

流式计算（一）-Java8Stream

大约各位看官君多少也听说了Storm/Spark/Flink，这些都是大数据流式处理框架。如果一条手机组装流水线上不同的人做不同的事，有的装电池，有的装屏幕，直到最后完成，这就是典型的流式处理。如果手机组装是先全部装完电池，再交给装屏幕的组，直到完成，这就是旧式的集合式处理。今天，就来先说说JDK8 ...

分类：编程语言时间：2019-12-16 15:00:46 阅读次数：829

GeoSpark入门-可视化

GeoSpark是一种用于大规模空间数据处理的集群计算。 GeoSpark通过一组out of the box空间弹性分布式数据集( SRDDs ) 扩展 Apache Spark，它可以跨机器高效地加载。处理、分析、展示大规模空间数据。准备工作 1. Windows 和 spark 2. IDE ...

分类：其他好文时间：2019-12-16 13:28:59 阅读次数：440

Spark-Core RDD行动算子

1、reduce（func）通过func函数聚集RDD 中的所有元素，先聚合分区内数据，再聚合分区间数据。 2、collect 以的形式返回 RDD 中的所有元素. 所以要慎用 3、count 返回 RDD 中元素的个数. 4、take（n）返回 RDD 中组成的 . take 的数据也会 ...

分类：其他好文时间：2019-12-16 12:54:02 阅读次数：74

2. Spark GraphX解析

2.1 存储模式 2.1.1 图存储模式巨型图的存储总体上有边分割和点分割两种存储方式 1）边分割(Edge-Cut)：每个顶点都存储一次，但有的边会被打断分到两台机器上。这样做的好处是节省存储空间；坏处是对图进行基于边的计算时，对于一条两个顶点被分到不同机器上的边来说，要跨机器通信传输数据，内网 ...

分类：其他好文时间：2019-12-16 09:48:57 阅读次数：115

Spark-Core RDD转换算子-Value型

1、 map(func) 作用 : 返回一个新的 RDD, 该 RDD 是由原 RDD 的每个元素经过函数转换后的值而组成. 就是对 RDD 中的数据做转换. 创建一个包含1 10的的 RDD，然后将每个元素 2形成新的 RDD 2、mapPartitions(func) 作用 : 类似于map(f ...

分类：其他好文时间：2019-12-15 20:28:24 阅读次数：96

Spark-Core RDD转换算子-双Value型交互

1、union（otherDataSet）作用： . 对源 RDD 和参数 RDD 求并集后返回一个新的 RDD 2、subtract（otherDataSet）作用: 从原 RDD 中减去原 RDD 和otherDataset 中的共同的部分. 3、intersection（otherDa ...

分类：其他好文时间：2019-12-15 20:02:10 阅读次数：81

Spark RDD

scala> val rdd1 = sc.parallelize(List(63,45,89,23,144,777,888))rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at :15查看该... ...

分类：其他好文时间：2019-12-15 01:05:06 阅读次数：98

spark调优篇-spark on yarn web UI

spark on yarn 的执行过程在 yarn RM 上无法直接查看，即 http://192.168.10.10:8088，这对于调试程序很不方便，所以需要手动配置配置方法 1. 配置 spark-defaults.conf cp spark-defaults.conf.template s ...

分类：Web程序时间：2019-12-14 18:50:53 阅读次数：174

SparkSQL学习案例:使用DataFrame和Dataset操作json数据

一、测试数据集(奥特曼.json) 二、源代码 1 import org.apache.spark.sql.SparkSession 2 3 //在Scala中,样例类在编译时会默认实现Product特质 4 case class Ultraman(name: String, age: BigInt ...

分类：数据库时间：2019-12-14 17:35:20 阅读次数：144

共7566条上一页 1 ... 85 86 87 88 89 ... 757 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)