累加器: 场景:各种计数问题,这个计算需要在driver端合并。 作用:解决Driver端和Execute端数据共享问题。 如图,需要将Driver端变量备份到Executor端,那么copy到Executor端的变量一定要是Executor级别的变量。那么如何自定义一个累加器呢,如何将累加器数据类 ...
分类:
其他好文 时间:
2019-11-23 22:10:42
阅读次数:
133
? 一,什么是RDD? 官方定义 :RDD是弹性分布式数据集。 1. 不可变的:类似于scala中的不可变集合,对集合进行转换操作的时候,产生新的集合RDD。 2. 分区的:每个RDD集合有多个分区组成,分区就是很多部分。 3. 并行操作:对RDD集合中的数据操作时,可以同时对所有的分区并行操作 五 ...
分类:
其他好文 时间:
2019-11-22 15:28:06
阅读次数:
62
1. hdfs存文件的时候会把文件切割成block,block分布在不同节点上,目前设置replicate=3,每个block会出现在3个节点上。 2. Spark以RDD概念为中心运行,RDD代表抽象数据集。以代码为例: sc.textFile(“abc.log”) textFile()函数会创建 ...
分类:
其他好文 时间:
2019-11-22 13:26:33
阅读次数:
63
1、Flume简介 ? (1) Flume提供一个分布式的,可靠的,对大数据量的日志进行高效收集、聚集、移动的服务,Flume只能在Unix环境下运行。 ? (2) Flume基于流式架构,容错性强,也很灵活简单。 ? (3) Flume、Kafka用来实时进行数据收集,Spark、Flink用来实 ...
分类:
Web程序 时间:
2019-11-22 12:11:59
阅读次数:
201
什么是Spark Streaming Spark Streaming类似于Apache Storm,用于流式数据的处理 Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的T ...
分类:
其他好文 时间:
2019-11-21 13:56:11
阅读次数:
103
平台上执行复杂查询,OOM,根据日志提示的结局方法: -- SET spark.driver.memory=6/8G;【还是OOM】set spark.sql.autoBroadcastJoinThreshold=-1;【解决问题】 Exception in thread "broadcast-ex ...
分类:
数据库 时间:
2019-11-21 09:30:17
阅读次数:
98
什么事sparkSQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用, 它是将Spark SQL转换成RDD,然后提交到集群执行,执行效率非常快 1)易整合 2)统一的数据访问方式 3)兼容Hive 4)标准 ...
分类:
数据库 时间:
2019-11-20 21:54:37
阅读次数:
91
上一篇说到Spark的yarn client运行模式,它与yarn cluster模式的主要区别就是前者Driver是运行在客户端,后者Driver是运行在yarn集群中。yarn client模式一般用在交互式场景中,比如spark shell, spark sql等程序,但是该模式下运行在客户端 ...
分类:
其他好文 时间:
2019-11-18 22:14:29
阅读次数:
101
初始化Centos7vi /etc/sysconfig/network-scripts/ifcfg-ens33DEVICE=ens33TYPE=EthernetONBOOT=yesNM_CONTROLLED=yesBOOTPROTO=staticIPADDR=192.168.3.131GATEWAY ...
分类:
其他好文 时间:
2019-11-18 12:52:33
阅读次数:
64