码迷,mamicode.com
首页 >  
搜索关键字:spark streaming    ( 7556个结果
Spark调优(二) 数据本地化
Application任务执行流程: 在Spark Application提交后,Driver会根据action算子划分成一个个的job,然后对每一 个job划分成一个个的stage,stage内部实际上是由一系列并行计算的task组成的,然后 以TaskSet的形式提交给你TaskSchedule ...
分类:其他好文   时间:2020-02-28 13:56:43    阅读次数:49
Spark宽依赖、窄依赖
在Spark中,RDD(弹性分布式数据集)存在依赖关系,宽依赖和窄依赖。 宽依赖和窄依赖的区别是RDD之间是否存在shuffle操作。 窄依赖 窄依赖指父RDD的每一个分区最多被一个子RDD的分区所用,即一个父RDD对应一个子RDD或多个父RDD对应一个子RDD map,filter,union属于 ...
分类:其他好文   时间:2020-02-28 11:44:48    阅读次数:46
Scala面向对象
Scala面向对象 前言: Scala语言是面向对象的。 ? Java是面向对象的编程语言,由于历史原因,Java中还存在着非面向对象的内容:基本类型(int,float..) ,null,静态方法等。 ? Scala语言来自于Java,所以天生就是面向对象的语言,而且Scala是纯粹的面向对象的语 ...
分类:其他好文   时间:2020-02-27 09:13:00    阅读次数:78
什么是spark?
什么是Spark? Spark官网:http://spark.apache.org Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态 ...
分类:其他好文   时间:2020-02-26 18:30:53    阅读次数:52
Java - XML
DOM|SAX|JDOM DOM SAX "推"式流模型, JDOM Java based Document Object Model, DOM4J Document Object Model for Java StAX Streaming API for XML: ,"拉"式流模型,JDK1.6新 ...
分类:编程语言   时间:2020-02-26 01:35:39    阅读次数:79
spark计算模型
spark为什么比mapreduce快 mapreduce的数据处理过程是:把数据从磁盘读到内存,在内存中完成计算,再写回磁盘。下一个mr程序要继续对这批数据进行处理,又要重复这一过程。有多少个mr程序,就有多少次读磁盘和写磁盘的过程,效率低下。 spark的数据处理过程是:把数据读到内存之后,在多 ...
分类:其他好文   时间:2020-02-25 13:05:09    阅读次数:66
Spark 的 Listener LisenerBus源码分析
ListenerBus Spark 很多地方需要对一些事件进行监听或处理,这就涉及到到了 Listener。 比如:当一个Batch完成的时候,需要做什么。当stream 启动时候时候需要做什么等。再具体的例子,就是我想看每个batch 里面的数据量是多少 对于不同场景有不同的 Listener 比 ...
分类:其他好文   时间:2020-02-25 00:10:45    阅读次数:79
hadoop+spark集群搭建
hadoop+spark集群搭建 本次实验环境:两台hadoop+两台spark组成集群 环境准备: 1. 两个主机实现ssh无密钥认证,包括本机与本机的免密钥认证: ssh-keygren :生成一对密钥 ssh-copy-id : 把公钥发给对方服务器 2. 集群间需实现时间同步:... ...
分类:其他好文   时间:2020-02-23 18:34:33    阅读次数:90
Flink(五) —— DataStream API
```package flinkimport org.apache.flink.streaming.api.scala.StreamExecutionEnvironmentimport org.apache.flink.api.scala._case class SensorReading(id: ... ...
分类:Windows程序   时间:2020-02-22 20:16:18    阅读次数:82
3.Spark 集群模式
Spark 集群模式 系统当前支持几种集群管理器: Standalone – 包含在spark中的一个简单集群管理器,它使得设置一个集群很容易。 Apache Mesos – 一个通用集群管理器,也能运行Hadoop MapReduce 和 service 应用。 Hadoop YARN – the ...
分类:其他好文   时间:2020-02-22 14:09:44    阅读次数:86
7556条   上一页 1 ... 53 54 55 56 57 ... 756 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!