码迷,mamicode.com
首页 > 其他好文 > 详细

RDD的理解

时间:2017-02-13 20:34:23      阅读:307      评论:0      收藏:0      [点我收藏+]

标签:默认   函数   hdfs   src   idt   dfs   line   数据   生命线   

1.RDD介绍

  技术分享

  A list of partitions ====> 一个许多分区的集合,分区中包含数据
  A function for computing each split ===> 为每个分区提供一个computing的函数
  A list of dependencies on other RDDs ===> RDD会依赖其他RDDs, 这种特性叫做:lineage(生命线);特例:第一个RDD不依赖其他RDD
  Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned) Key-Value的RDD存在一个分区器,默认是Hash分区器;分区器的作用类型MR中的Partitioner,决定上一个RDD中的数据到下一个RDD的时候是在那个分区中
  Optionally, a list of preferred locations to compute each split on (e.g. block locations foran HDFS file) 数据计算本地化操作,类似MR

 

2.对应的五个方法

  技术分享

 

RDD的理解

标签:默认   函数   hdfs   src   idt   dfs   line   数据   生命线   

原文地址:http://www.cnblogs.com/juncaoit/p/6395111.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!