导读目录 第一节:代码层面 1:RDD创建 2:算子 3:数据持久化算子 4:广播变量 5:累加器 6:开发流程 第二节:Shuffle优化层面 1:Shuffle 2:调优 第一节:代码层面 (1)RDD创建: Java: sc.textfile sc.parallelize() sc.paral ...
分类:
其他好文 时间:
2020-01-09 20:41:14
阅读次数:
78
目录RDD概述RDD实现RDD运行流程RDD分区RDD操作分类RDD编程接口说明一、RDD概述RDD:是Resilient distributed datasets的简称,中文为弹性分布式数据集;是Spark最核心的模块和类DAG:Spark将计算转换为一个有向无环图(DAG)的任务集合,通过为RD... ...
分类:
其他好文 时间:
2020-01-08 14:43:26
阅读次数:
102
系统架构介绍 整个实时监控系统的架构是先由 Flume 收集服务器产生的日志 Log 和前端埋点数据, 然后实时把这些信息发送到 Kafka 分布式发布订阅消息系统,接着由 Spark Streaming 消费 Kafka 中的消息,同时消费记录由 Zookeeper 集群统一管理,这样即使 Kaf ...
分类:
其他好文 时间:
2020-01-07 11:44:25
阅读次数:
100
飞狐5分钟换手率指标 代做通达信指标公式、博易大师策略公式调试、5日市场成本32日市场成本主图指标公式飞狐市场成本5日32日主图指标源码原理解析VAR1赋值:成交量(手)/成交量(手)的5日累和输出市场成本(5日): 以VAR1为权重收盘价的动态移动平均VARC赋值:成交额(元)/成交量(手)/10 ...
分类:
其他好文 时间:
2020-01-03 21:35:27
阅读次数:
77
问:通过Api创建的地址和通过Api添加的地址是否都会被监控到? 答:会,监听到会员的充值,程序会把数据传输给用户填写的回调URL 问:会回调哪些内容,我又应该怎样处理? 答:下面是回调的内容 { 'appid'=>'ba1e6***6fse', 'time'=>1577862810, 'sign' ...
分类:
其他好文 时间:
2020-01-01 17:05:38
阅读次数:
77
1. 参数:(zeroValue: U)(seqOp: (U, T) ? U, combOp: (U, U) ? U) 2. 作用:aggregate函数将每个分区里面的元素通过seqOp和初始值进行聚合,然后用combine函数将每个分区的结果和初始值(zeroValue)进行combine操作。 ...
分类:
其他好文 时间:
2019-12-26 13:15:28
阅读次数:
90
spark 提供了两个机器学习库 MLlib 和 ML,MLlib 是 spark 第一个机器学习库,相比于 ML,它更加成熟 rdd 是 spark core 的数据抽象,dataframe 是 sparkSQL 的数据抽象, 而 MLib 的数据抽象包括 Vector、LabeledPoint、 ...
分类:
其他好文 时间:
2019-12-20 18:26:13
阅读次数:
101
数据结构:时间戳,省份,城市,用户,广告,中间字段使用空格分割。 样本如下: 1516609143867 6 7 64 16 1516609143869 9 4 75 18 1516609143869 1 7 87 12 package Spark02 import org.apache.spark ...
分类:
其他好文 时间:
2019-12-19 18:55:54
阅读次数:
129
1、无状态转换操作 (1)无状态转化操作就是把简单的RDD转化操作应用到每个批次上,也就是转换DStream中的每一个RDD。 部分无状态转化操作: (2)尽管这些函数韩起来像作用在整个流上一样,但事实上每个DStream在内部是由许多RDD(批次)组成,且无状态转化操作是分别应用到每个RDD上。 ...
分类:
其他好文 时间:
2019-12-19 17:38:47
阅读次数:
92
我们进行 Spark 进行编程的时候, 初始化工作是在driver端完成的 ,而 实际的运行程序是在executor端进行 ,所以就涉及到了进程间的通讯,数据是需要序列化的 1、传递函数 说明: (1)直接运行程序会报错: 。因为 用到了 ,所以对象 this需要序列化 , 才能把对象从driver ...
分类:
其他好文 时间:
2019-12-17 13:07:58
阅读次数:
84