Spark 源码解读(四)SparkContext的初始化之创建任务调度器TaskScheduler TaskScheduler负责任务任务的提交,并请求集群管理器对任务的调度。创建TaskScheduler的代码如下: val (sched, ts) = SparkContext.createTa ...
分类:
其他好文 时间:
2020-07-03 00:59:56
阅读次数:
63
一、什么是Celery 1.1、celery是什么 Celery是一个简单、灵活且可靠的,处理大量消息的分布式系统,专注于实时处理的异步任务队列,同时也支持任务调度。 Celery的架构由三部分组成,消息中间件(message broker),任务执行单元(worker)和任务执行结果存储(task ...
分类:
Web程序 时间:
2020-07-02 22:01:32
阅读次数:
78
SPARK_MASTER_OPTS is not allowed to specify max heap(Xmx) memory settings (was -Xms512m -Xmx1024m -Dcom.sun.management.jmxremote=true -Dcom.sun.manage ...
分类:
其他好文 时间:
2020-07-02 16:40:58
阅读次数:
87
pandas、spark计算相关性系数速度对比 相关性计算有三种算法:pearson、spearman,kenall。 在pandas库中,对一个Dataframe,可以直接计算这三个算法的相关系数correlation,方法为:data.corr() 底层是依赖scipy库的算法。 为了提升计算速 ...
分类:
其他好文 时间:
2020-07-02 16:38:40
阅读次数:
126
深度因式分解机 Deep Factorization Machines 学习有效的特征组合对于点击率预测任务的成功至关重要。因子分解机以线性范式对特征交互进行建模(例如,双线性交互)。对于实际数据来说,这通常是不够的,因为在实际数据中,固有特征交叉结构通常非常复杂和非线性。更糟糕的是,二阶特征交互在 ...
分类:
其他好文 时间:
2020-07-02 16:10:20
阅读次数:
78
本文始发于个人公众号:TechFlow,原创不易,求个关注 今天是spark专题的第七篇文章,我们一起看看spark的数据分析和处理。 过滤去重 在机器学习和数据分析当中,对于数据的了解和熟悉都是最基础的。所谓巧妇难为无米之炊,如果说把用数据构建一个模型或者是支撑一个复杂的上层业务比喻成做饭的话。那 ...
分类:
其他好文 时间:
2020-07-02 13:20:51
阅读次数:
67
自由自在 废话省略... 主要有三个类; 线程池构造工厂 ExecutorServiceFactory 线程处理类 ExecutorProcessPool 测试 ExecutorTest package com.adao.test.Executor; import java.util.concurr ...
分类:
编程语言 时间:
2020-07-01 19:58:31
阅读次数:
67
RDD加上结构,比如说类名,就可以变成DataFrame,DataFrame,将每一类同这一类的类名绑定在一起就可以称为DataSet. spark sql 就是来处理dataframe和dataset这样的结构数据的。 spark sql使用的时候需要提供spark session环境。 // S ...
分类:
数据库 时间:
2020-07-01 18:40:18
阅读次数:
60
环境centos7thinkphp 5.0think-worker 1.0.1Workerman version:3.5.30PHP version:5.6.9 thinkphp 5.0使用workerman,启动workerman服务端报错 pcntl_signal() has been disa ...
分类:
Web程序 时间:
2020-07-01 12:26:37
阅读次数:
251
定义一个 SqlIntercepor 类 import com.culturalCenter.placeManage.globalConfig.Interface.InterceptAnnotation; import org.apache.ibatis.executor.statement.Sta ...
分类:
数据库 时间:
2020-07-01 12:25:57
阅读次数:
153