前提storageLevel != null读源码查看先看ietrator,查看storageLevel看sparkEnv.getMemoryManger,通过block manager来操作具体的storage,a list of partitions;RDD获取缓存实质上通过block mana...
分类:
其他好文 时间:
2015-12-30 13:04:21
阅读次数:
141
sparkEnv是spark环境变量1、可以从其中get 缓存2、为master workder driver 管理和保存运行时对象。3、excutorid ,excutor 一种为driver类型,一种具体处理task 内部有线程池的excutor4、actorSystem ,如果运行在drive...
分类:
其他好文 时间:
2015-12-29 19:09:08
阅读次数:
242
窄依赖 narrow dependencymap,filter,union ,join(co-partitioned)制定了父RDD中的分片具体交给哪个唯一的子RDD并行的,RDD分片是独立的。只依赖相同ID的分片range分片one to dependencyrange dependency内部可...
分类:
其他好文 时间:
2015-12-29 16:08:02
阅读次数:
218
1、HDFS只能读取,或者通过其他途径创建2、transfrmation是lazy的。3、传统的容错方式,数据检查点或者记录数据的更新容错是分布式最困难的部分。数据检查点:通过数据中心的网络,连接所在的机器之间,复制庞大的数据集。消耗网络和磁盘。记录数据的更新:更新的很多,则记录成本很高。4、RDD...
分类:
其他好文 时间:
2015-12-28 20:35:22
阅读次数:
141
map 通过自定义函数 f:T->u 将元数据T转换为u,不会将split进行合并flatMap通过自定义函数 f:T->u 进行数据变换,并将拆分后的小集合合并成一个大集合。mapPartitionsIter => iter.filter(_>3)作用于整个分区(例如hbase表等)进行操作glo...
分类:
移动开发 时间:
2015-12-28 20:20:12
阅读次数:
589
1、RDD 只读的分区数据集合。2、RDD的依赖关系,生成RDD的血统。3、RDD支持基于工作集的运用。可以显性的将数据存储在内存中,可以支持高效数据重用。4、RDD是分布式数据编程的一种抽象5、RDD的特征a list of partitions(hdfs的一个分片就是一个partition,每个...
分类:
其他好文 时间:
2015-12-28 20:14:57
阅读次数:
186
git commit?--help git config --list git config --unset --global user.name git config --global color.ui true cat ~/.gitconfig git log git diff git diff --staged (老版本是 git diff --cached) git mv ...
分类:
其他好文 时间:
2015-09-07 22:58:28
阅读次数:
404
day03①.回顾描述GPL、BSD、APACHE三大开源协议?自由软件,开源协定版权描述www.kernel.orgGNU/Linux-->发布的是源代码-->第三方软件公司重新打包发行-->目前流行的发行版-->RedHat(Fedora个人社区版CentOS社区企业版)-->SUSE(OpenSUSE)-->Debian-->U..
分类:
系统相关 时间:
2015-09-07 01:58:38
阅读次数:
240
01、查询以http开头的rpm包02、红帽子下面禁用SElinuxsetenforce 0 用这个临时关掉。修改/etc/selinux/config内的参数 SELINUX=disabledgetenforce查看状态。
分类:
Web程序 时间:
2015-09-02 20:42:02
阅读次数:
132
没有什么可说的,马哥的Linux视频真的是精品,这里把我学习以后的笔记整理到这里,以备不时之需。day01①.Linux学习的一些方法论做好总结,必须学习完一个知识点以后要用自己的思想把它彻底的给别人讲明白,这样这个知识就真的融入你们的知识体系了,否则看着会了,其实是一知..
分类:
其他好文 时间:
2015-08-25 12:45:26
阅读次数:
457