1 任务调度利器:APScheduler 2 分布式的队列:celery 3 绘图组件:Matplotlib 、 Seaborn 4 ORM框架:SQLAlchemy 、 Peewee 5 web开发框架:Flask 、 Django、Tornado 6 机器学习:Pytorch、TensorFlo ...
分类:
编程语言 时间:
2020-06-23 13:19:34
阅读次数:
80
本课程针对企业不同数据规模技术方案进行讲解,紧贴企业热门需求,深入讲解企业级大数据技术的数据存储技术、数据采集技术、数据处理技术、任务调度技术等;课程针对知识点进行企业级案例式教学,理论结合实战,从0到1构建大数据生态技术的方方面面,内容涵盖大数据平台、Spark、Flink、OLAP等核心技术;用真实的企业级实时数仓项目、离线数仓项目、PB级实时用户行为分析系统、千亿级实时广告系统等多个大型项目
分类:
其他好文 时间:
2020-06-22 19:15:45
阅读次数:
50
本课程针对企业不同数据规模技术方案进行讲解,紧贴企业热门需求,深入讲解企业级大数据技术的数据存储技术、数据采集技术、数据处理技术、任务调度技术等;课程针对知识点进行企业级案例式教学,理论结合实战,从0到1构建大数据生态技术的方方面面,内容涵盖大数据平台、Spark、Flink、OLAP等核心技术;用 ...
分类:
其他好文 时间:
2020-06-22 18:50:44
阅读次数:
295
1.Hadoop平台: 1.理论概念:结构组成: 1. HDFS分布式文统.2.MapReduce计算大数据. 3Yarn任务调度与资源管理. 2. 伪分布式环境搭建: 网络配置: 配置网卡信息: vi /etc/sysconfig/network 配置主机的虚拟域名: vi /etc/hosts ...
分类:
其他好文 时间:
2020-06-21 11:26:51
阅读次数:
96
日常开发中难免会碰到需要开启定时任务处理业务。这时我们第一时间想到的是Spring的Task,但是很不方便,这里可以列出几点: 1.一旦需要更改定时任务时间,我们就要打开IDE修改cron表达式; 2.在特殊的情况下代码报错了,我们就要打开Log查看是什么导致的问题; 3.需要很多定时任务去处理业务 ...
分类:
其他好文 时间:
2020-06-10 18:52:04
阅读次数:
54
celery的简介 celery是一个基于分布式消息传输的异步任务队列,它专注于实时处理,同时也支持任务调度。它的执行单元为任务(task),利用多线程,如Eventlet,gevent等,它们能被并发地执行在单个或多个职程服务器(worker servers)上。任务能异步执行(后台运行)或同步执 ...
分类:
编程语言 时间:
2020-06-09 23:27:41
阅读次数:
107
项目开发中经常需要执行一些定时任务,比如需要在每天凌晨的时候,分析一次前一天的日志信息,Spring为我们提供了异步执行任务调度的方式,提供了两个接口。 TaskExecutor接口 TaskScheduler接口 两个注解: @EnableScheduling @Scheduled 测试步骤: 1 ...
分类:
其他好文 时间:
2020-06-01 21:03:02
阅读次数:
71
最近工作中用了了Hadoop,比如用Hadoop来处理广告的一些pv量数据、点击数据等,最后统计后给运营展示每个广告的数据报表 首先自己了解了一些关于Hadoop的概念知识 hadoop平台提供了分布式存储(hdfs),分布式计算(mapredduce),任务调度(YARN)、对象存储(Ozone) ...
分类:
其他好文 时间:
2020-05-30 20:22:33
阅读次数:
94
使用jenkins另一个必不可少的配置就是对jenkins的备份。Jenkins的所有的数据都是以文件的形式存放在`${JENKINS_HOME}`目录中。所以不管是迁移还是备份,只需要将`${JENKINS_HOME}`打包后在拷贝,然后将打包的文件解压到新的`${JENKINS_HOME}`目录 ...
分类:
其他好文 时间:
2020-05-29 19:27:46
阅读次数:
215
###1.大数据架构 说明: 1.该大数据平台采用的阿里云服务器,所以在集群部署和运维上会减少很多工作量 2.主题的计算引擎采用Spark,部分有Flink 3.数据挖掘主要是应用python的一些挖掘框架,模型比如词袋模型和一些常见的nlp算法 4.任务调度是自研的诸葛大数据调度平台 ...
分类:
其他好文 时间:
2020-05-28 11:34:57
阅读次数:
68