根据IBM的统计报告显示,过去两年内,当今世界上90%的数据产生源于新设备、传感器以及技术的出现,数据增长率也会为此加速。而从技术上将,这意味着大数据领域,处理这些数据将变得更加复杂和具有挑战性。例如移动应用广告、欺诈检测、出租车预订、患者监控等场景处理时,需要对实时数据进行实时处理,以便做出快速可行的决策。目前业界有开源不少实时计算引擎,以Apache基金会的两款开源实时计算引擎最受欢迎,它们分
分类:
其他好文 时间:
2020-06-20 09:12:52
阅读次数:
230
Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台,是业界首个同时支持批式算法、流式算法的机器学习平台。本文将为大家展现Alink如何划分训练数据集和测试数据集。 ...
分类:
其他好文 时间:
2020-06-12 22:54:10
阅读次数:
95
1.前言 对于做实时计算的朋友来说,资源设置都是一个比较麻烦的问题。实时计算不同于离线计算,它的任务都是并行的,启动就会一直占用集群资源,如果资源设置的过多会造成极大的浪费,设置的过少任务会不断发生failover。这里说的资源主要指的就是内存资源,所以本文对Flink的内存设置提供一些思路,尤其是 ...
分类:
其他好文 时间:
2020-06-06 16:52:23
阅读次数:
363
Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台,是业界首个同时支持批式算法、流式算法的机器学习平台。TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。本文将为大家展现Alin... ...
分类:
编程语言 时间:
2020-06-05 23:23:35
阅读次数:
107
Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台,是业界首个同时支持批式算法、流式算法的机器学习平台。本文将从模型角度入手带领大家来再次深入Alink。 ...
分类:
其他好文 时间:
2020-05-23 09:58:18
阅读次数:
99
"视频地址" PyFlink 核心功能介绍 文章概述:PyFlink 的核心功能原理介绍及相关 demo 演示。 作者:程鹤群(军长)(Apache Flink Committer,阿里巴巴技术专家),是 Flink 社区的一名 PMC ,现在在阿里巴巴的实时计算团队。2015年加入阿里巴巴搜索事业 ...
分类:
其他好文 时间:
2020-05-18 00:29:25
阅读次数:
398
Flink Table & SQL WordCountFlink SQL 是 Flink 实时计算为简化计算模型,降低用户使用实时计算门槛而设计的一套符合标准 SQL 语义的开发语言。 一个完整的 Flink SQL 编写的程序包括如下三部分。 Source Operator:是对外部数据源的抽象, ...
分类:
数据库 时间:
2020-05-11 23:31:08
阅读次数:
119
Flink 的 DataSet 和 DataStream 的 API,并模拟了实时计算的场景,详细讲解了 DataStream 常用的 API 的使用。 说好的流批一体呢现状在前面的课程中,曾经提到过,Flink 很重要的一个特点是“流批一体”,然而事实上 Flink 并没有完全做到所谓的“流批一体 ...
Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台,是业界首个同时支持批式算法、流式算法的机器学习平台。本文是漫谈系列的第二篇,将从源码入手,带领大家具体剖析Alink是如何设计的,其架构如何。 ...
分类:
其他好文 时间:
2020-05-10 10:46:37
阅读次数:
68
spark批处理模式: receiver模式:接收数据流,负责数据的存储维护,缺点:数据维护复杂(可靠性,数据积压等),占用计算资源(core,memory被挤占) direct模式:数据源由三方组件完成,spark只负责数据拉取计算,充分利用资源计算 window计算: def windowApi ...
分类:
其他好文 时间:
2020-04-29 14:30:19
阅读次数:
68