码迷,mamicode.com
首页 >  
搜索关键字:大数据开发 Hadoop Spark    ( 19831个结果
Spark Streaming
Concept http://spark.apache.org/streaming/ Spark Streaming makes it easy to build scalable fault-tolerant streaming applications. Ease of Use Build ap ...
分类:其他好文   时间:2020-07-08 13:26:09    阅读次数:59
Spark SQL : DataFrame repartition、coalesce 对比
repartition repartition 有三个重载的函数: 1) def repartition(numPartitions: Int): DataFrame /** * Returns a new [[DataFrame]] that has exactly `numPartitions` ...
分类:数据库   时间:2020-07-08 13:17:49    阅读次数:93
大数据面试题
Linux部分 ①列举你使用的常用指令? ②怎么查看服务是否开启?后面的参数都是什么意思? ③怎么查看服务器内存使用情况? ④日志查看指令? ⑤跨机房怎么传输文件? Hadoop部分 ①怎么搭建一个Hadoop集群? ②Hadoop的Shuffer机制? ③切片概念?文件256M时,几个切片? ④M ...
分类:其他好文   时间:2020-07-08 13:03:03    阅读次数:59
Spark 源码解读(五)SparkContext的初始化之创建和启动DAGScheduler
Spark 源码解读(五)SparkContext的初始化之创建和启动DAGScheduler DAGScheduler主要用于在任务正式提交给TaskSchedulerImpl提交之前做一些准备工作,包括:创建job,将DAG中的RDD划分到不同的Stage,提交Stage等等。SparkCont ...
分类:其他好文   时间:2020-07-07 23:39:16    阅读次数:102
spark rdd--分区理解
1.分区的作用 RDD 使用分区来分布式并行处理数据, 并且要做到尽量少的在不同的 Executor 之间使用网络交换数据, 所以当使用 RDD 读取数据的时候, 会尽量的在物理上靠近数据源, 比如说在读取 Cassandra 或者 HDFS 中数据的时候, 会尽量的保持 RDD 的分区和数据源的分 ...
分类:其他好文   时间:2020-07-07 13:11:09    阅读次数:164
Flink 的安装和部署
Flink 的安装和部署主要分为本地(单机)模式和集群模式,其中本地模式只需直接解压就可以使用,不以修改任何参数,一般在做一些简单测试的时候使用。本地模式在我们的 课程里面不再赘述。集群模式包含: u Standalone。 u Flink on Yarn。 u Mesos。 u Docker。 u ...
分类:其他好文   时间:2020-07-07 12:56:50    阅读次数:58
Kafka Streams与其他流处理平台的差异在哪里?
本文已收录GitHub,更有互联网大厂面试真题,面试攻略,高效学习资料等近些年来,开源流处理领域涌现出了很多优秀框架。光是在Apache基金会孵化的项目,关于流处理的大数据框架就有十几个之多,比如早期的ApacheSamza、ApacheStorm,以及这两年火爆的Spark以及Flink等。应该说,每个框架都有自己独特的地方,也都有自己的缺陷。面对这众多的流处理框架,我们应该如何选择呢?在本文汇
分类:其他好文   时间:2020-07-07 11:38:26    阅读次数:67
Spark
1、Spark是什么 Spark是一个高性能内存处理引擎,它提供了基于RDD的数据抽象,能够灵活处理分布式数据集 2、Spark核心概念 RDD:弹性分布式数据集,它是一个只读的、带分区的数据集合,并支持多种分布式算子。由下面5部分构成: 一组partition 每个partition的计算函数 所 ...
分类:其他好文   时间:2020-07-06 19:30:48    阅读次数:57
java程序员摸爬滚打的三年,这些经历你值得借鉴
欢迎关注 CSDN:程序员小羊 微信公众号:程序员小羊 不知不觉都2020年7月了,小羊同学从毕业快开始都一直从事java开发这个行业,前两天开通了头条号,想借此发文分享一下这几年的经历吧,如果你是还没毕业的大学生或者刚入行不久,也许会对你有帮助。 1:多问,尤其是应届生,在这个阶段会遇到的问题很多 ...
分类:编程语言   时间:2020-07-06 18:06:41    阅读次数:52
Spark快速入门之RDD编程模型
RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个可分区,不可变,里面的元素可并行计算的结合。RDD具有自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显示地将工作集换存在内存中,后续的查询能够重用工作集 ...
分类:其他好文   时间:2020-07-06 16:20:23    阅读次数:61
19831条   上一页 1 ... 47 48 49 50 51 ... 1984 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!