码迷,mamicode.com
首页 >  
搜索关键字:spark streaming数据源flume实战    ( 7001个结果
大数据从入门到项目实战,精品学习材料,值得大家一看
01-大数据快速入门基础02-Scala学习进击大数据Spark生态圏03-Spark从入门到项目实战大师课04-大数据系统学习全套视频教程(视频.源码.课件)05-大数据系统学习项目实战就业班课程06-大数据之Spark零基础到实战07-大数据项目实战视频hadoop spark实时计算项目实战教 ...
分类:其他好文   时间:2019-11-27 23:18:45    阅读次数:126
Spark闭包与序列化
Spark的官方文档再三强调那些将要作用到RDD上的操作,不管它们是一个函数还是一段代码片段,它们都是“闭包”,Spark会把这个闭包分发到各个worker节点上去执行,这里涉及到了一个容易被忽视的问题:闭包的“序列化”。 显然,闭包是有状态的,这主要是指它牵涉到的那些自由变量以及自由变量依赖到的其 ...
分类:其他好文   时间:2019-11-27 23:17:08    阅读次数:105
Spark相关知识
基本概念: Spark作为新一代大数据计算引擎,因为内存计算的特性,具有比hadoop更快的计算速度。是一个分布式计算框架,旨在简化运行于计算机集群上的并行程序的编写。RDD:是spark核心数据处理模型,弹性分布式数据集(Resilient Distributed Dataset)是分布式内存的一 ...
分类:其他好文   时间:2019-11-26 16:12:00    阅读次数:95
windows下大数据开发环境搭建(4)——Spark环境搭建
本文从实践出发,介绍如何在windows环境下搭建scala环境,让你可以使用Spark语言继续自己的大数据之旅,增添一点乐趣。同时指出大部分朋友在初次运行spark-shell会遇到的报错:ERROR Shell: Failed to locate the winutils binary in t... ...
分类:Windows程序   时间:2019-11-25 23:20:43    阅读次数:99
09-大数据入门一
Hadoop [翻译大象] 广义: 以apache hadoop软件为主的生态圈(hive sqoop spark flink....)狭义: apache hadoop软件 以后这些网站经常用到hadoop.apache.orghive.apache.orgspark.apache.org had ...
分类:其他好文   时间:2019-11-25 15:21:18    阅读次数:134
使用Amazon EMR和Apache Hudi在S3上插入,更新,删除数据
将数据存储在Amazon S3中可带来很多好处,包括规模、可靠性、成本效率等方面。最重要的是,你可以利用Amazon EMR中的Apache Spark,Hive和Presto之类的开源工具来处理和分析数据。 尽管这些工具功能强大,但是在处理需要进行增量数据处理以及记录级别插入,更新和删除场景时,仍 ...
分类:Web程序   时间:2019-11-25 13:35:57    阅读次数:166
初识Spark
Spark(一): 基本架构及原理 Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下 ...
分类:其他好文   时间:2019-11-25 11:52:12    阅读次数:62
spark 预编译安装
1.下载地址: http://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-3.0.0-preview/spark-3.0.0-preview-bin-hadoop2.7.tgz 上传虚拟机或服务器 2. 解压文件 tar -xzvf spark-3 ...
分类:其他好文   时间:2019-11-24 19:48:33    阅读次数:144
Spark Streamming 共享变量之_ 如何正确使用累加器
累加器: 场景:各种计数问题,这个计算需要在driver端合并。 作用:解决Driver端和Execute端数据共享问题。 如图,需要将Driver端变量备份到Executor端,那么copy到Executor端的变量一定要是Executor级别的变量。那么如何自定义一个累加器呢,如何将累加器数据类 ...
分类:其他好文   时间:2019-11-23 22:10:42    阅读次数:133
Spark入门02
? 一,什么是RDD? 官方定义 :RDD是弹性分布式数据集。 1. 不可变的:类似于scala中的不可变集合,对集合进行转换操作的时候,产生新的集合RDD。 2. 分区的:每个RDD集合有多个分区组成,分区就是很多部分。 3. 并行操作:对RDD集合中的数据操作时,可以同时对所有的分区并行操作 五 ...
分类:其他好文   时间:2019-11-22 15:28:06    阅读次数:62
7001条   上一页 1 ... 83 84 85 86 87 ... 701 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!