也可以直接用文件系统来构造 RDD的操作分为转化操作(transformation)和行为操作(action), 转化操作和行为操作的本质区别 转化操作使一个RDD转化为另一个RDD而行动操作就是进行实际的计算 以下是行动操作代码 map()指的是对key进行操作 mapValues()指的是对Va ...
分类:
其他好文 时间:
2019-03-14 22:28:55
阅读次数:
206
RDD怎么理解? RDD 是 Spark 的灵魂,也称为弹性分布式数据集。一个 RDD 代表一个可以被分区的只读数据集。RDD 内部可以有许多分区(partitions),每个分区又拥有大量的记录(records)。Rdd的五个特征: 1. dependencies: 建立 RDD 的依赖关系,主要 ...
分类:
其他好文 时间:
2019-03-14 16:30:55
阅读次数:
278
注意:spark的编码格式是utf-8,其他的格式会有乱码,所以文件要使用utf-8编码 pom.xml: <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns: ...
分类:
其他好文 时间:
2019-03-12 21:16:14
阅读次数:
207
一、方式介绍 本次测试一种采用了四种方式进行了对比,分别是:1.在RDD内部调用java API。2、调用saveAsNewAPIHadoopDataset()接口。3、saveAsHadoopDataset()。4、BulkLoad方法。 测试使用的大数据版本如下(均为单机版):Hadoop2.7 ...
分类:
其他好文 时间:
2019-03-06 01:13:30
阅读次数:
972
当spark跑在yarn上时 单个executor执行时,数据量过大时会导致executor的memory不足而使得rdd 最后lost,最终导致任务执行失败 其中会抛出如图异常信息 如图中异常所示 对应解决方法可以加上对应的参数调优(这个配置可以在总的处理数据量在几百TB或者1~3PB级别的数据处 ...
分类:
其他好文 时间:
2019-02-28 15:01:13
阅读次数:
656
Spark-RDD 模型 以及运行原理 数据:在内存中计算,数组、list、set spark:RDD是弹性分布性数据集合,并且是基于分区的只读记录。 RDD:操作类型(转换-Transformaction 和 行动-Action) 转换:Transformaction:根据原有的RDD创建一个新的 ...
分类:
其他好文 时间:
2019-02-23 11:02:09
阅读次数:
134
Spark运行模式 Local 多用于本地测试,如在eclipse,idea中写程序测试等。 Standalone Standalone是Spark自带的一个资源调度框架,它支持完全分布式。 Yarn Hadoop生态圈里面的一个资源调度框架,Spark也是可以基于Yarn来计算的。 Mesos 资 ...
分类:
其他好文 时间:
2019-02-23 01:35:09
阅读次数:
214
Given a non-empty string s and a dictionary wordDict containing a list of non-empty words, determine if s can be segmented into a space-separated sequ ...
分类:
其他好文 时间:
2019-02-21 21:34:06
阅读次数:
221
1、RDD是Spark提供的核心抽象,全称为Resillient Distributed Dataset,即弹性分布式数据集。 2、RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,分为多个分区,每个分区分布在集群中的不同节点上,从而让RDD中的数据可以被并行操作。(分布式数据集) 3、R ...
分类:
其他好文 时间:
2019-02-21 00:08:31
阅读次数:
194
一、安装mailx sendmail 1.1查看是否已经安装 yum install -y mailx sendmail 如果已经安装,会提示已经安装,没有安装会自动安装。 二、开启sendmail服务 查看状态:systemctl status sendmail 如果Active:显示active ...
分类:
其他好文 时间:
2019-02-15 15:23:00
阅读次数:
467