1. SparkShuffle 概念 reduceByKey 会将上一个RDD中的每一个key对应的所有 value 聚合成一个 value, 然后生成一个value, 然后生成一个新的 RDD, 元素资源是 对的形式, 这样每一个 key 对应 一个聚合起来的 value。 问题: 聚合之前, 每 ...
分类:
其他好文 时间:
2019-10-26 10:53:58
阅读次数:
92
一:worker注册机制(worker启动之后) 1- worker在启动之后,就会主动向master进行注册; 2- Master将dead状态的worker过滤掉;将unknown状态的worker信息更新; 3- Master将worker将入到内存缓存中(HashMap); 4- 持久化引擎 ...
分类:
其他好文 时间:
2019-10-26 10:50:50
阅读次数:
147
注意: -.toSeq:将元组List转换成mutable.Map -:_*:表示变长参数 ...
分类:
其他好文 时间:
2019-10-25 18:37:19
阅读次数:
240
No output streams registered, so nothing to execute解决原因:没有触发DStream需要的aciton解决方法:使用以下方法之一触发: ...
分类:
编程语言 时间:
2019-10-25 16:21:05
阅读次数:
75
大数据具体是什么意思?虽然都知道高薪,但如何学习大数据呢?有哪些学习路径和方法?今天我们就来具体看一下大数据是什么?来看看维基百科的定义大数据(英语:Bigdata或Megadata),或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。在总数据量相同的情况下,与个别分析独立的小型数据集相比,将各个小型数据集合
分类:
其他好文 时间:
2019-10-25 12:55:15
阅读次数:
88
Spark 资源调度与任务调度的流程(Standalone): 启动集群后, Worker 节点会向 Master 节点汇报资源情况, Master掌握了集群资源状况。 当 Spark 提交一个 Application 后, 根据 RDD 之间的依赖关系将 Application 形成一个 DAG ...
分类:
其他好文 时间:
2019-10-24 21:25:15
阅读次数:
70
Scala 比 Java 更面向对象一点,是 Scala 的类不允许静态(static)成员。对此类使用场景,Scala 提供了 单例对象(object)。单例对象的定义看上去跟类定义很像,只不过 class 关键字被换成了 object 关键字。 在事例中单例对象名叫 ChecksumAccumu ...
分类:
其他好文 时间:
2019-10-24 21:24:36
阅读次数:
102
一、使用graph做好友推荐 二、用户标签数据合并Demo 测试数据 陌上花开 旧事酒浓 多情汉子 APP爱奇艺:10 BS龙德广场:8 多情汉子 满心闯 K韩剧:20 满心闯 喜欢不是爱 不是唯一 APP爱奇艺:10 装逼卖萌无所不能 K欧莱雅面膜:5 计算结果数据 (-397860375,(Li ...
分类:
其他好文 时间:
2019-10-24 21:13:08
阅读次数:
117
spark streamming 程序提交到yarn 上运行 报错 SLF4J: Class path contains multiple SLF4J bindings. SLF4J: Found binding in [jar:file:/mnt/disk3/hadoop/yarn/local/f ...
分类:
编程语言 时间:
2019-10-24 15:51:42
阅读次数:
134