码迷,mamicode.com
首页 >  
搜索关键字:spark rdd    ( 7287个结果
使用Amazon EMR和Apache Hudi在S3上插入,更新,删除数据
将数据存储在Amazon S3中可带来很多好处,包括规模、可靠性、成本效率等方面。最重要的是,你可以利用Amazon EMR中的Apache Spark,Hive和Presto之类的开源工具来处理和分析数据。 尽管这些工具功能强大,但是在处理需要进行增量数据处理以及记录级别插入,更新和删除场景时,仍 ...
分类:Web程序   时间:2019-11-25 13:35:57    阅读次数:166
初识Spark
Spark(一): 基本架构及原理 Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下 ...
分类:其他好文   时间:2019-11-25 11:52:12    阅读次数:62
spark 预编译安装
1.下载地址: http://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-3.0.0-preview/spark-3.0.0-preview-bin-hadoop2.7.tgz 上传虚拟机或服务器 2. 解压文件 tar -xzvf spark-3 ...
分类:其他好文   时间:2019-11-24 19:48:33    阅读次数:144
Spark Streamming 共享变量之_ 如何正确使用累加器
累加器: 场景:各种计数问题,这个计算需要在driver端合并。 作用:解决Driver端和Execute端数据共享问题。 如图,需要将Driver端变量备份到Executor端,那么copy到Executor端的变量一定要是Executor级别的变量。那么如何自定义一个累加器呢,如何将累加器数据类 ...
分类:其他好文   时间:2019-11-23 22:10:42    阅读次数:133
Spark入门02
? 一,什么是RDD? 官方定义 :RDD是弹性分布式数据集。 1. 不可变的:类似于scala中的不可变集合,对集合进行转换操作的时候,产生新的集合RDD。 2. 分区的:每个RDD集合有多个分区组成,分区就是很多部分。 3. 并行操作:对RDD集合中的数据操作时,可以同时对所有的分区并行操作 五 ...
分类:其他好文   时间:2019-11-22 15:28:06    阅读次数:62
spark-on-yarn 学习
1. hdfs存文件的时候会把文件切割成block,block分布在不同节点上,目前设置replicate=3,每个block会出现在3个节点上。 2. Spark以RDD概念为中心运行,RDD代表抽象数据集。以代码为例: sc.textFile(“abc.log”) textFile()函数会创建 ...
分类:其他好文   时间:2019-11-22 13:26:33    阅读次数:63
【Flume】Flume基础之安装与使用
1、Flume简介 ? (1) Flume提供一个分布式的,可靠的,对大数据量的日志进行高效收集、聚集、移动的服务,Flume只能在Unix环境下运行。 ? (2) Flume基于流式架构,容错性强,也很灵活简单。 ? (3) Flume、Kafka用来实时进行数据收集,Spark、Flink用来实 ...
分类:Web程序   时间:2019-11-22 12:11:59    阅读次数:201
spark union 特别注意
spark union 特别注意
分类:其他好文   时间:2019-11-21 15:33:24    阅读次数:308
Spark学习(4) Spark Streaming
什么是Spark Streaming Spark Streaming类似于Apache Storm,用于流式数据的处理 Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的T ...
分类:其他好文   时间:2019-11-21 13:56:11    阅读次数:103
sparksql 复杂查询OOM
平台上执行复杂查询,OOM,根据日志提示的结局方法: -- SET spark.driver.memory=6/8G;【还是OOM】set spark.sql.autoBroadcastJoinThreshold=-1;【解决问题】 Exception in thread "broadcast-ex ...
分类:数据库   时间:2019-11-21 09:30:17    阅读次数:98
7287条   上一页 1 ... 90 91 92 93 94 ... 729 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!