RDD简介 在Spark集群背后,有一个非常重要的分布式数据架构,即弹性分布式数据集(Resilient Distributed DataSet,RDD),它是逻辑集中的实体,在集群中的多台集群上进行数据分区。通过对多台机器上不同RDD分区的控制,能够减少机器之间的数据重排(Data Shuffle...
分类:
其他好文 时间:
2015-09-14 00:30:20
阅读次数:
253
1.编译环境 CentOS6.6 ?JDK1.7.0_80 ?Maven3.2.5 2.下载Spark源代码并解压 [yyl@vmnode ~]$ pwd
/home/yyl
[yyl@vmnode make]$ pwd
/home/yyl/make
[yyl@vmnode make]$ wget http://mirrors.cnnic.cn/apache/s...
分类:
其他好文 时间:
2015-09-13 16:05:51
阅读次数:
252
package com.leegh.implicits/** * @author Guohui Li */object Implicit_Conversions_with_Implicit_Parameters { def main(args: Array[String]): Unit = { .....
分类:
其他好文 时间:
2015-09-13 10:32:59
阅读次数:
143
Spark中的shuffle大概是这么个过程:map端把map输出写成本地文件,reduce端去读取这些文件,然后执行reduce操作。那么,问题来了:reducer是怎么知道它的输入在哪呢?首先,mapper在写完文件之后,肯定能提供与它的输出相关的信息。这个信息,在Spark中由MapStatu...
分类:
其他好文 时间:
2015-09-13 09:20:17
阅读次数:
193
操作系统:windows 10IDEA : IDEA 14.1.41:使用IDEA导入spark 1.5的源码,注意maven配置为自动导入2:在maven窗口下的profiles中勾选hadoop, hive ,hive-thriftserver,yarn的选项。3: 在maven窗口下勾选gen...
分类:
其他好文 时间:
2015-09-12 22:16:54
阅读次数:
274
该公司推出的在线项目Spark拥有近1随着时间的推移。有效,Spark事实上,优秀的分布式计算平台,以提高生产力。开始本篇笔记。此前的研究会Spark研究报告共享出来(由于篇幅的限制,它将被划分成制品),为了帮助刚接触Spark的朋友们尽快入门。以下開始正文。1. 项目背景Spark项目于2009年...
分类:
其他好文 时间:
2015-09-12 14:38:17
阅读次数:
148
package com.leegh.implicits/** * @author Guohui Li */object Context_Implicits { implicit val default: String = "java"}object Param { def print(conte.....
分类:
其他好文 时间:
2015-09-12 12:04:12
阅读次数:
127
Shuffle是一个比较复杂的过程,有必要详细剖析一下内部写的逻辑
ShuffleManager分为SortShuffleManager和HashShuffleManager
一、SortShuffleManager
每个ShuffleMapTask不会为每个Reducer生成一个单独的文件;相反,它会将所有的结果写到一个本地文件里,同时会生成一个index文件,Reducer可以通过这个index文件取得它需要处理的数据。避免产生大量的文件的直接收益就是节省了内存的使用和顺序Disk IO带来的低延时。
...
分类:
其他好文 时间:
2015-09-12 09:37:25
阅读次数:
197
SBT的Console是交互的,能打包编译工程。DT大数据梦工厂微信公众账号:DT_Spark。DT大数据梦工厂的微信公众号是DT_Spark,每天都会有大数据实战视频发布,请您持续学习。王家林DT大数据梦工厂scala的所有视频、PPT和代码在百度云盘的链接:http://pan.baidu.com/share/home?uk=4..
分类:
编程语言 时间:
2015-09-12 08:30:20
阅读次数:
267
打包成jar包的方式:File->Projectstructure->Artfact->点+->JAR->Frommoduleswithdependencies...->选择module->可指定Mainclass->点击OKDT大数据梦工厂微信公众账号:DT_Spark。DT大数据梦工厂的微信公众号是DT_Spark,每天都会有大数据实战视频发布..
分类:
其他好文 时间:
2015-09-12 08:29:13
阅读次数:
266