架构图 说明: 1.logic启动http服务器, 接受http请求,用于将数据推送到kafka以及获取在线用户信息,websocket身份校验 2.comet组件起动webdocket/tcp服务, 管理连接, 并负责将数据推送至指定连接 3. job组件订阅指定kafka指定频道的消息信息, 开 ...
分类:
其他好文 时间:
2020-05-05 12:46:53
阅读次数:
1044
Spark Job log 文件分析: 下面是一个Spark 数据据统计Job 的 log 文件, 从前到后的顺序分析Job的执行过程(Spark local mode)。 启动 SparkContext 提交 Job RatingHistogram 20/05/04 18:02:20 INFO S ...
分类:
其他好文 时间:
2020-05-05 09:12:49
阅读次数:
103
考虑这样一个事实:较小边与较小边比较,较大边与较大边比较一定最优 不然,较大边与较小边比较有可能不能塞入,较小边与较大边比较有可能浪费,不更优,或者说,后者能够塞入的前者一定能塞入,前者能塞入的后者不一定能塞入 考虑每次维护当前较小边的最大值和当前较大边的最大值即可 时间复杂度:O(n) #incl ...
分类:
其他好文 时间:
2020-05-05 01:00:58
阅读次数:
68
什么是Quartz Quartz是OpenSymphony开源组织在Job scheduling领域又一个开源项目,完全由Java开发,可以用来执行定时任务,类似于java.util.Timer。但是相较于Timer, Quartz增加了很多功能。 Quartz就是一种任务调度计划。 它是由Open ...
分类:
其他好文 时间:
2020-05-03 21:47:40
阅读次数:
67
1、分布式 2、基于内存 3、迭代式计算 每一批节点上的每一批数据就是一个RDD RDD是spark的核心抽象 1、RDD是Spark提供的核心抽象,全称为Resillient Distributed Dataset,即弹性分布式数据集。2、RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的 ...
分类:
其他好文 时间:
2020-05-03 20:41:36
阅读次数:
61
报错提示: [amqEmbeddedWorkerJmsContainer-5] [uk.ac.ebi.interpro.scan.jms.worker.LocalJobQueueListener:204] ERROR - Execution thrown when attempting to exe ...
分类:
编程语言 时间:
2020-05-02 18:48:12
阅读次数:
85
一、RDD(弹性分布式数据集) RDD 是 Spark 最核心的数据结构,RDD(Resilient Distributed Dataset)全称为弹性分布式数据集,是 Spark 对数据的核心抽象,也是最关键的抽象,它实质上是一组分布式的 JVM 不可变对象集合,不可变决定了它是只读的,所以 RD ...
分类:
其他好文 时间:
2020-05-02 14:51:21
阅读次数:
56
公司目前的Jenkins pipeline任务多,在随着版本及任务需求变化,发现要变更一个任务时,要大量变更多个job,甚是麻烦。 看了下jenkins官网,Global Pipeline Libraries正好可以满足我的需求,那就学起来吧,看看怎么用了。 一、groovy脚本 首先第一步肯定是要 ...
分类:
其他好文 时间:
2020-05-01 16:20:51
阅读次数:
64
要求:基础扎实,对技术有强烈的兴趣,对于框架本质和原理有较为深刻的认识。欢迎投递👏👏👏 https://job.toutiao.com/s/wv917T ...
分类:
其他好文 时间:
2020-05-01 10:27:08
阅读次数:
80
本文讲解 skip-gram 模型以及优化和扩展。主要包括层次 Softmax、负采样、学习短语的表示。 先提一下词向量: 词向量(也叫词嵌入,word embedding),简单地说就是用一个低维向量表示一个词。由于独热编码(one-hot encoding)存在维度灾难,即稀疏性,且无法理解词与 ...
分类:
其他好文 时间:
2020-04-30 21:26:52
阅读次数:
67