搜索关键字：RDD，搜索到1327个结果！码迷,mamicode.com！

大数据-spark理论(2)算子，shuffle优化

导读目录第一节：代码层面 1：RDD创建 2：算子 3：数据持久化算子 4：广播变量 5：累加器 6：开发流程第二节：Shuffle优化层面 1：Shuffle 2：调优第一节：代码层面（1）RDD创建： Java: sc.textfile sc.parallelize() sc.paral ...

分类：其他好文时间：2020-01-09 20:41:14 阅读次数：78

Spark编程模型(核心篇一)

目录RDD概述RDD实现RDD运行流程RDD分区RDD操作分类RDD编程接口说明一、RDD概述RDD：是Resilient distributed datasets的简称，中文为弹性分布式数据集;是Spark最核心的模块和类DAG:Spark将计算转换为一个有向无环图(DAG)的任务集合，通过为RD... ...

分类：其他好文时间：2020-01-08 14:43:26 阅读次数：102

【转】Spark Streaming 实时计算在甜橙金融监控系统中的应用及优化

系统架构介绍整个实时监控系统的架构是先由 Flume 收集服务器产生的日志 Log 和前端埋点数据, 然后实时把这些信息发送到 Kafka 分布式发布订阅消息系统，接着由 Spark Streaming 消费 Kafka 中的消息，同时消费记录由 Zookeeper 集群统一管理，这样即使 Kaf ...

分类：其他好文时间：2020-01-07 11:44:25 阅读次数：100

代做通达信指标公式、5日市场成本32日市场成本公式

飞狐5分钟换手率指标代做通达信指标公式、博易大师策略公式调试、5日市场成本32日市场成本主图指标公式飞狐市场成本5日32日主图指标源码原理解析VAR1赋值:成交量(手)/成交量(手)的5日累和输出市场成本（5日）: 以VAR1为权重收盘价的动态移动平均VARC赋值:成交额(元)/成交量(手)/10 ...

分类：其他好文时间：2020-01-03 21:35:27 阅读次数：77

充提系统常见问题解答

问：通过Api创建的地址和通过Api添加的地址是否都会被监控到？答：会,监听到会员的充值,程序会把数据传输给用户填写的回调URL 问：会回调哪些内容,我又应该怎样处理？答：下面是回调的内容 { 'appid'=>'ba1e6***6fse', 'time'=>1577862810, 'sign' ...

分类：其他好文时间：2020-01-01 17:05:38 阅读次数：77

RDD-aggregate

1. 参数：(zeroValue: U)(seqOp: (U, T) ? U, combOp: (U, U) ? U) 2. 作用：aggregate函数将每个分区里面的元素通过seqOp和初始值进行聚合，然后用combine函数将每个分区的结果和初始值(zeroValue)进行combine操作。 ...

分类：其他好文时间：2019-12-26 13:15:28 阅读次数：90

spark机器学一Mllib 数据类型

spark 提供了两个机器学习库 MLlib 和 ML，MLlib 是 spark 第一个机器学习库，相比于 ML，它更加成熟 rdd 是 spark core 的数据抽象，dataframe 是 sparkSQL 的数据抽象，而 MLib 的数据抽象包括 Vector、LabeledPoint、 ...

分类：其他好文时间：2019-12-20 18:26:13 阅读次数：101

Spark RDD计算每天各省的top3热门广告

数据结构：时间戳，省份，城市，用户，广告，中间字段使用空格分割。样本如下： 1516609143867 6 7 64 16 1516609143869 9 4 75 18 1516609143869 1 7 87 12 package Spark02 import org.apache.spark ...

分类：其他好文时间：2019-12-19 18:55:54 阅读次数：129

SparkStreaming DStream转换

1、无状态转换操作（1）无状态转化操作就是把简单的RDD转化操作应用到每个批次上，也就是转换DStream中的每一个RDD。部分无状态转化操作：（2）尽管这些函数韩起来像作用在整个流上一样，但事实上每个DStream在内部是由许多RDD（批次）组成，且无状态转化操作是分别应用到每个RDD上。 ...

分类：其他好文时间：2019-12-19 17:38:47 阅读次数：92

Spark-Core RDD中数据共享

我们进行 Spark 进行编程的时候，初始化工作是在driver端完成的，而实际的运行程序是在executor端进行，所以就涉及到了进程间的通讯，数据是需要序列化的 1、传递函数说明：（1）直接运行程序会报错：。因为用到了，所以对象 this需要序列化，才能把对象从driver ...

分类：其他好文时间：2019-12-17 13:07:58 阅读次数：84

共1327条上一页 1 ... 22 23 24 25 26 ... 133 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)