搜索关键字：spark streaming数据源flume实战，搜索到7001个结果！码迷,mamicode.com！

Apache Spark 3.0 预览版正式发布，多项重大功能发布

2019年11月08日数砖的 Xingbo Jiang 大佬给社区发了一封邮件，宣布 Apache Spark 3.0 预览版正式发布，这个版本主要是为了对即将发布的 Apache Spark 3.0 版本进行大规模社区测试。无论是从 API 还是从功能上来说，这个预览版都不是一个稳定的版本，它的 ...

分类：Web程序时间：2019-11-17 12:48:33 阅读次数：86

Spark源码(1) Spark配置

写熟悉的第一句代码 val conf = new SparkConf().setAppName("WordCount")点击SparkConf() ,发现 private val settings = new ConcurrentHashMap[String, String]() 可见所有配置都是 ...

分类：其他好文时间：2019-11-15 22:48:59 阅读次数：156

spark面试题-1

原文链接：https://blog.csdn.net/Lwj879525930/article/details/82559596 1.spark中的RDD是什么，有哪些特性？答：RDD（Resilient Distributed Dataset）叫做分布式数据集，是spark中最基本的数据抽象，它 ...

分类：其他好文时间：2019-11-15 22:41:39 阅读次数：120

搭建hadoop+spark+hive环境（配置安装hive）

I、下载并且解压hive #下载hive wget http://apache.claz.org/hive/hive-2.3.6/apache-hive-2.3.6-bin.tar.gz #解压 tar zxf apache-hive-2.3.6-bin.tar.gz #移动到hadoop文件夹中 ...

分类：其他好文时间：2019-11-15 22:29:48 阅读次数：83

Flink 操作链与任务槽

Operator Chains(操作链) Flink出于分布式执行的目的，将operator的subtask链接在一起形成task（类似spark中的管道）。每个task在一个线程中执行。将operators链接成task是非常有效的优化：它可以减少线程与线程间的切换和数据缓冲的开销，并在降低延 ...

分类：其他好文时间：2019-11-13 22:27:32 阅读次数：504

事件时间(event time)与水印(watermark)

1. 事件时间和水印诞生的背景在实际的流式计算中数据到来的顺序对计算结果的正确性有至关重要的影响比如：某数据源中的某些数据由于某种原因(如：网络原因，外部存储自身原因)会有2秒的延时，也就是在实际时间的第1秒产生的数据有可能在第3秒中产生的数据之后到来。假设在一个5秒的滚动窗口中，有一个Eve ...

分类：其他好文时间：2019-11-13 14:44:46 阅读次数：94

刚学spark

https://blog.csdn.net/u013019431/article/details/80776662 在jupyter notebook import pysparkhttps://www.douban.com/note/504421303/ 如何初始化 https://blog.cs ...

分类：其他好文时间：2019-11-13 14:41:33 阅读次数：85

spark

计算圆周率 # bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --executor-memory 1G \ --total-executor-cores 2 \ ./examples/jars/spark-example ...

分类：其他好文时间：2019-11-12 23:11:45 阅读次数：113

小记--------spark-Wordcount经典案例之对结果根据词频进行倒序排序

还是以经典案例Wordcount为例：逻辑思路： 1.先把文本按空格切分成每个单词 flatMap() 2.将每个单词都转换成Tuple2类型(hello ,1) map() 3.将key相同的次数相加(hello , 5) reduceByKey() 4.将(hello , 5) 反转成(5 , ...

分类：编程语言时间：2019-11-12 00:47:45 阅读次数：85

Kafka原理详解

Kafka是最初由Linkedin公司开发，是一个分布式、支持分区的（partition）、多副本的（replica），基于zookeeper协调的分布式消息系统，它的最大的特性就是可以实时的处理大量数据以满足各种需求场景：比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流 ...

分类：其他好文时间：2019-11-11 21:47:16 阅读次数：85

共7001条上一页 1 ... 85 86 87 88 89 ... 701 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)