pyspark jvm端的scala代码PythonRDD 代码版本为 spark 2.2.0 1.PythonRDD.class 这个rdd类型是python能接入spark的关键 2.PythonRunner.class 这个类是rdd内部执行计算时的实体计算类,并不是代码提交时那个启动py4j ...
分类:
编程语言 时间:
2018-05-16 17:27:37
阅读次数:
286
pyspark rdd.py文件代码纪录 代码版本为 spark 2.2.0 1.RDD及常见算子 2.PipelinedRDD ...
分类:
其他好文 时间:
2018-05-16 16:44:05
阅读次数:
238
spark术语 --------------- 1.RDD 弹性分布式数据集 , 轻量级数据集合。 内部含有5方面属性: a.分区列表 b.计算函数 c.依赖列表 e.分区类(KV) f.首选位置 创建RDD方式) a.text... ...
分类:
其他好文 时间:
2018-05-16 10:47:52
阅读次数:
156
结合自身面试经历,包括BAT、SF、中信等等公司所做的面试题汇总。主要包括以下几大类: 一、spark相关 1.Spark的Shuffle原理及调优? 2.hadoop和spark使用场景? 3.spark如何保证宕机迅速恢复? 4.hadoop和spark的相同点和不同点? 5.RDD持久化原理? ...
分类:
其他好文 时间:
2018-05-14 13:47:37
阅读次数:
714
我们有这样的两个文件 第一个数字为行号,后边为三列数据。我们来求第二列数据的Top(N) (1)我们先读取数据,创建Rdd (2)过滤数据,取第二列数据。 我们用filter()来过滤数据 line.trim().length是除去行末尾的空格然后计算长度,长度大于0,并且分能用逗号切分为4个子数据 ...
分类:
其他好文 时间:
2018-05-14 11:40:31
阅读次数:
130
1.sortByKey() 功能: 返回一个根据键排序的RDD 示例 结果 如果我们想逆向排序,就在后边加上false参数。 2.sortBy() 功能: 返回根据提供的参数进行排序的RDD 示例 结果同上 结果 如果我们想逆向排序,就在后边加上false参数。 ...
分类:
其他好文 时间:
2018-05-07 13:38:24
阅读次数:
2171
1、使用高性能序列化类库2、优化数据结构3、对多次使用的RDD进行持久化/CheckPoint4、使用序列化的持久化级别5、Java虚拟机垃圾回收调优 降低RDD缓存占用空间的比例:new SparkConf().set("spark.storage.memoryFraction","0.5"),从 ...
分类:
其他好文 时间:
2018-05-06 19:59:43
阅读次数:
176
1、hadoop分布式事物的一致性2、hdfs的特征 只能attend,不能update(为什么)3、spark和hive不同使用场景:spark是基于内存的,hive是,,,,,;rdd和sql(为什么有时候复杂的时候用sql,sql更高效,spark程序,rdd是一种数据结构,dataframe ...
分类:
其他好文 时间:
2018-05-06 18:54:38
阅读次数:
187
RDD是弹性分布式数据集,通常RDD很大,会被分成多个分区,保存在不同节点上。 那么分区有什么好处呢? 分区能减少节点之间的通信开销,正确的分区能大大加快程序的执行速度。 我们看个例子 首先我们要了解一个概念,分区并不等同于分块。 分块是我们把全部数据切分成好多块来存储叫做分块。 如上图b,产生的分 ...
分类:
其他好文 时间:
2018-05-05 19:40:02
阅读次数:
196