搜索关键字：spark streaming数据源flume实战，搜索到7001个结果！码迷,mamicode.com！

大数据从入门到项目实战，精品学习材料，值得大家一看

01-大数据快速入门基础02-Scala学习进击大数据Spark生态圏03-Spark从入门到项目实战大师课04-大数据系统学习全套视频教程(视频.源码.课件)05-大数据系统学习项目实战就业班课程06-大数据之Spark零基础到实战07-大数据项目实战视频hadoop spark实时计算项目实战教 ...

分类：其他好文时间：2019-11-27 23:18:45 阅读次数：126

Spark闭包与序列化

Spark的官方文档再三强调那些将要作用到RDD上的操作，不管它们是一个函数还是一段代码片段，它们都是“闭包”，Spark会把这个闭包分发到各个worker节点上去执行，这里涉及到了一个容易被忽视的问题：闭包的“序列化”。显然，闭包是有状态的，这主要是指它牵涉到的那些自由变量以及自由变量依赖到的其 ...

分类：其他好文时间：2019-11-27 23:17:08 阅读次数：105

Spark相关知识

基本概念： Spark作为新一代大数据计算引擎，因为内存计算的特性，具有比hadoop更快的计算速度。是一个分布式计算框架，旨在简化运行于计算机集群上的并行程序的编写。RDD：是spark核心数据处理模型，弹性分布式数据集(Resilient Distributed Dataset)是分布式内存的一 ...

分类：其他好文时间：2019-11-26 16:12:00 阅读次数：95

windows下大数据开发环境搭建（4）——Spark环境搭建

本文从实践出发，介绍如何在windows环境下搭建scala环境，让你可以使用Spark语言继续自己的大数据之旅，增添一点乐趣。同时指出大部分朋友在初次运行spark-shell会遇到的报错：ERROR Shell： Failed to locate the winutils binary in t... ...

分类：Windows程序时间：2019-11-25 23:20:43 阅读次数：99

09-大数据入门一

Hadoop [翻译大象] 广义: 以apache hadoop软件为主的生态圈(hive sqoop spark flink....)狭义: apache hadoop软件以后这些网站经常用到hadoop.apache.orghive.apache.orgspark.apache.org had ...

分类：其他好文时间：2019-11-25 15:21:18 阅读次数：134

使用Amazon EMR和Apache Hudi在S3上插入，更新，删除数据

将数据存储在Amazon S3中可带来很多好处，包括规模、可靠性、成本效率等方面。最重要的是，你可以利用Amazon EMR中的Apache Spark，Hive和Presto之类的开源工具来处理和分析数据。尽管这些工具功能强大，但是在处理需要进行增量数据处理以及记录级别插入，更新和删除场景时，仍 ...

分类：Web程序时间：2019-11-25 13:35:57 阅读次数：166

初识Spark

Spark(一): 基本架构及原理 Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架，最初在2009年由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一，与Hadoop和Storm等其他大数据和MapReduce技术相比，Spark有如下 ...

分类：其他好文时间：2019-11-25 11:52:12 阅读次数：62

spark 预编译安装

1.下载地址: http://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-3.0.0-preview/spark-3.0.0-preview-bin-hadoop2.7.tgz 上传虚拟机或服务器 2. 解压文件 tar -xzvf spark-3 ...

分类：其他好文时间：2019-11-24 19:48:33 阅读次数：144

Spark Streamming 共享变量之_ 如何正确使用累加器

累加器：场景：各种计数问题，这个计算需要在driver端合并。作用：解决Driver端和Execute端数据共享问题。如图，需要将Driver端变量备份到Executor端，那么copy到Executor端的变量一定要是Executor级别的变量。那么如何自定义一个累加器呢，如何将累加器数据类 ...

分类：其他好文时间：2019-11-23 22:10:42 阅读次数：133

Spark入门02

? 一，什么是RDD？官方定义：RDD是弹性分布式数据集。 1. 不可变的：类似于scala中的不可变集合，对集合进行转换操作的时候，产生新的集合RDD。 2. 分区的：每个RDD集合有多个分区组成，分区就是很多部分。 3. 并行操作：对RDD集合中的数据操作时，可以同时对所有的分区并行操作五 ...

分类：其他好文时间：2019-11-22 15:28:06 阅读次数：62

共7001条上一页 1 ... 83 84 85 86 87 ... 701 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)