搜索关键字：实时计算，搜索到318个结果！码迷,mamicode.com！

基于Kafka的实时计算引擎：Flink能否替代Spark？

根据IBM的统计报告显示，过去两年内，当今世界上90%的数据产生源于新设备、传感器以及技术的出现，数据增长率也会为此加速。而从技术上将，这意味着大数据领域，处理这些数据将变得更加复杂和具有挑战性。例如移动应用广告、欺诈检测、出租车预订、患者监控等场景处理时，需要对实时数据进行实时处理，以便做出快速可行的决策。目前业界有开源不少实时计算引擎，以Apache基金会的两款开源实时计算引擎最受欢迎，它们分

分类：其他好文时间：2020-06-20 09:12:52 阅读次数：230

Alink漫谈(七) : 如何划分训练数据集和测试数据集

Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台，是业界首个同时支持批式算法、流式算法的机器学习平台。本文将为大家展现Alink如何划分训练数据集和测试数据集。 ...

分类：其他好文时间：2020-06-12 22:54:10 阅读次数：95

Flink内存设置思路

1.前言对于做实时计算的朋友来说，资源设置都是一个比较麻烦的问题。实时计算不同于离线计算，它的任务都是并行的，启动就会一直占用集群资源，如果资源设置的过多会造成极大的浪费，设置的过少任务会不断发生failover。这里说的资源主要指的就是内存资源，所以本文对Flink的内存设置提供一些思路，尤其是 ...

分类：其他好文时间：2020-06-06 16:52:23 阅读次数：363

Alink漫谈(六) : TF-IDF算法的实现

Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台，是业界首个同时支持批式算法、流式算法的机器学习平台。TF-IDF（term frequency–inverse document frequency）是一种用于信息检索与数据挖掘的常用加权技术。本文将为大家展现Alin... ...

分类：编程语言时间：2020-06-05 23:23:35 阅读次数：107

Alink漫谈(四) : 模型的来龙去脉

Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台，是业界首个同时支持批式算法、流式算法的机器学习平台。本文将从模型角度入手带领大家来再次深入Alink。 ...

分类：其他好文时间：2020-05-23 09:58:18 阅读次数：99

flink系列-11、PyFlink 核心功能介绍（整理自 Flink 中文社区）

"视频地址" PyFlink 核心功能介绍文章概述：PyFlink 的核心功能原理介绍及相关 demo 演示。作者：程鹤群（军长）（Apache Flink Committer，阿里巴巴技术专家），是 Flink 社区的一名 PMC ,现在在阿里巴巴的实时计算团队。2015年加入阿里巴巴搜索事业 ...

分类：其他好文时间：2020-05-18 00:29:25 阅读次数：398

Flink学习（四） Flink Table & SQL 实现wordcount Java版本

Flink Table & SQL WordCountFlink SQL 是 Flink 实时计算为简化计算模型，降低用户使用实时计算门槛而设计的一套符合标准 SQL 语义的开发语言。一个完整的 Flink SQL 编写的程序包括如下三部分。 Source Operator：是对外部数据源的抽象, ...

分类：数据库时间：2020-05-11 23:31:08 阅读次数：119

flink常用的API

Flink 的 DataSet 和 DataStream 的 API，并模拟了实时计算的场景，详细讲解了 DataStream 常用的 API 的使用。说好的流批一体呢现状在前面的课程中，曾经提到过，Flink 很重要的一个特点是“流批一体”，然而事实上 Flink 并没有完全做到所谓的“流批一体 ...

分类：Windows程序时间：2020-05-10 20:54:56 阅读次数：242

Alink漫谈(二) : 从源码看机器学习平台Alink设计和架构

Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台，是业界首个同时支持批式算法、流式算法的机器学习平台。本文是漫谈系列的第二篇，将从源码入手，带领大家具体剖析Alink是如何设计的，其架构如何。 ...

分类：其他好文时间：2020-05-10 10:46:37 阅读次数：68

Spark Streaming实时计算

spark批处理模式： receiver模式：接收数据流，负责数据的存储维护，缺点：数据维护复杂（可靠性，数据积压等），占用计算资源（core，memory被挤占） direct模式：数据源由三方组件完成，spark只负责数据拉取计算，充分利用资源计算 window计算： def windowApi ...

分类：其他好文时间：2020-04-29 14:30:19 阅读次数：68

共318条上一页 1 2 3 4 ... 32 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)