搜索关键字：RDD，搜索到1327个结果！码迷,mamicode.com！

RDD弹性分布式数据集的基本操作

也可以直接用文件系统来构造 RDD的操作分为转化操作（transformation）和行为操作（action），转化操作和行为操作的本质区别转化操作使一个RDD转化为另一个RDD而行动操作就是进行实际的计算以下是行动操作代码 map()指的是对key进行操作 mapValues()指的是对Va ...

分类：其他好文时间：2019-03-14 22:28:55 阅读次数：206

Spark面试题

RDD怎么理解？ RDD 是 Spark 的灵魂，也称为弹性分布式数据集。一个 RDD 代表一个可以被分区的只读数据集。RDD 内部可以有许多分区(partitions)，每个分区又拥有大量的记录(records)。Rdd的五个特征： 1. dependencies: 建立 RDD 的依赖关系，主要 ...

分类：其他好文时间：2019-03-14 16:30:55 阅读次数：278

实验 4 RDD 编程初级实践

注意：spark的编码格式是utf-8，其他的格式会有乱码，所以文件要使用utf-8编码 pom.xml： <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns: ...

分类：其他好文时间：2019-03-12 21:16:14 阅读次数：207

Spark入Hbase的四种方式效率对比

一、方式介绍本次测试一种采用了四种方式进行了对比，分别是：1.在RDD内部调用java API。2、调用saveAsNewAPIHadoopDataset（）接口。3、saveAsHadoopDataset（）。4、BulkLoad方法。测试使用的大数据版本如下（均为单机版）：Hadoop2.7 ...

分类：其他好文时间：2019-03-06 01:13:30 阅读次数：972

spark执行在yarn上executor内存不足异常ERROR YarnScheduler: Lost executor 542 on host-bigdata3: Container marked as failed: container_e40_1550646084627_1007653_01_000546 on host: host-bigdata3. Exit status: 143.

当spark跑在yarn上时单个executor执行时，数据量过大时会导致executor的memory不足而使得rdd 最后lost，最终导致任务执行失败其中会抛出如图异常信息如图中异常所示对应解决方法可以加上对应的参数调优(这个配置可以在总的处理数据量在几百TB或者1~3PB级别的数据处 ...

分类：其他好文时间：2019-02-28 15:01:13 阅读次数：656

Spark-RDD 模型以及运行原理

Spark-RDD 模型以及运行原理数据：在内存中计算，数组、list、set spark：RDD是弹性分布性数据集合，并且是基于分区的只读记录。 RDD：操作类型（转换-Transformaction 和行动-Action）转换：Transformaction：根据原有的RDD创建一个新的 ...

分类：其他好文时间：2019-02-23 11:02:09 阅读次数：134

spark记录（1）spark Core之RDD

Spark运行模式 Local 多用于本地测试，如在eclipse，idea中写程序测试等。 Standalone Standalone是Spark自带的一个资源调度框架，它支持完全分布式。 Yarn Hadoop生态圈里面的一个资源调度框架，Spark也是可以基于Yarn来计算的。 Mesos 资 ...

分类：其他好文时间：2019-02-23 01:35:09 阅读次数：214

leetcode 139. Word Break

Given a non-empty string s and a dictionary wordDict containing a list of non-empty words, determine if s can be segmented into a space-separated sequ ...

分类：其他好文时间：2019-02-21 21:34:06 阅读次数：221

RDD

1、RDD是Spark提供的核心抽象，全称为Resillient Distributed Dataset，即弹性分布式数据集。 2、RDD在抽象上来说是一种元素集合，包含了数据。它是被分区的，分为多个分区，每个分区分布在集群中的不同节点上，从而让RDD中的数据可以被并行操作。（分布式数据集） 3、R ...

分类：其他好文时间：2019-02-21 00:08:31 阅读次数：194

centos7中mail实测（qq邮箱）

一、安装mailx sendmail 1.1查看是否已经安装 yum install -y mailx sendmail 如果已经安装，会提示已经安装，没有安装会自动安装。二、开启sendmail服务查看状态：systemctl status sendmail 如果Active：显示active ...

分类：其他好文时间：2019-02-15 15:23:00 阅读次数：467

共1327条上一页 1 ... 38 39 40 41 42 ... 133 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)