搜索关键字：RDD，搜索到1327个结果！码迷,mamicode.com！

pyspark对应的scala代码PythonRDD类

pyspark jvm端的scala代码PythonRDD 代码版本为 spark 2.2.0 1.PythonRDD.class 这个rdd类型是python能接入spark的关键 2.PythonRunner.class 这个类是rdd内部执行计算时的实体计算类,并不是代码提交时那个启动py4j ...

分类：编程语言时间：2018-05-16 17:27:37 阅读次数：286

pyspark的RDD代码纪录

pyspark rdd.py文件代码纪录代码版本为 spark 2.2.0 1.RDD及常见算子 2.PipelinedRDD ...

分类：其他好文时间：2018-05-16 16:44:05 阅读次数：238

spark-job提交原理和资源配置

spark术语 --------------- 1.RDD 弹性分布式数据集 , 轻量级数据集合。内部含有5方面属性： a.分区列表 b.计算函数 c.依赖列表 e.分区类(KV) f.首选位置创建RDD方式) a.text... ...

分类：其他好文时间：2018-05-16 10:47:52 阅读次数：156

大数据面试题汇总(不断更新中)

结合自身面试经历，包括BAT、SF、中信等等公司所做的面试题汇总。主要包括以下几大类：一、spark相关 1.Spark的Shuffle原理及调优？ 2.hadoop和spark使用场景？ 3.spark如何保证宕机迅速恢复? 4.hadoop和spark的相同点和不同点？ 5.RDD持久化原理？ ...

分类：其他好文时间：2018-05-14 13:47:37 阅读次数：714

【spark】示例：求Top值

我们有这样的两个文件第一个数字为行号，后边为三列数据。我们来求第二列数据的Top(N) (1)我们先读取数据，创建Rdd (2)过滤数据，取第二列数据。我们用filter()来过滤数据 line.trim().length是除去行末尾的空格然后计算长度，长度大于0，并且分能用逗号切分为4个子数据 ...

分类：其他好文时间：2018-05-14 11:40:31 阅读次数：130

Spark 的Core深入（二）

Spark 的Core深入

分类：其他好文时间：2018-05-08 12:09:17 阅读次数：235

【spark】常用转换操作：sortByKey()和sortBy()

1.sortByKey() 功能：返回一个根据键排序的RDD 示例结果如果我们想逆向排序，就在后边加上false参数。 2.sortBy() 功能：返回根据提供的参数进行排序的RDD 示例结果同上结果如果我们想逆向排序，就在后边加上false参数。 ...

分类：其他好文时间：2018-05-07 13:38:24 阅读次数：2171

spark性能调优点（逐步完善）

1、使用高性能序列化类库2、优化数据结构3、对多次使用的RDD进行持久化/CheckPoint4、使用序列化的持久化级别5、Java虚拟机垃圾回收调优降低RDD缓存占用空间的比例：new SparkConf().set("spark.storage.memoryFraction","0.5"),从 ...

分类：其他好文时间：2018-05-06 19:59:43 阅读次数：176

大数据开发

1、hadoop分布式事物的一致性2、hdfs的特征只能attend,不能update(为什么)3、spark和hive不同使用场景：spark是基于内存的，hive是，，，，，;rdd和sql（为什么有时候复杂的时候用sql,sql更高效，spark程序,rdd是一种数据结构，dataframe ...

分类：其他好文时间：2018-05-06 18:54:38 阅读次数：187

【spark】分区

RDD是弹性分布式数据集，通常RDD很大，会被分成多个分区，保存在不同节点上。那么分区有什么好处呢？分区能减少节点之间的通信开销，正确的分区能大大加快程序的执行速度。我们看个例子首先我们要了解一个概念，分区并不等同于分块。分块是我们把全部数据切分成好多块来存储叫做分块。如上图b，产生的分 ...

分类：其他好文时间：2018-05-05 19:40:02 阅读次数：196

共1327条上一页 1 ... 54 55 56 57 58 ... 133 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)