码迷,mamicode.com
首页 >  
搜索关键字:spark 安装、介绍    ( 7164个结果
Spark-RDD简介
RDD简介 在Spark集群背后,有一个非常重要的分布式数据架构,即弹性分布式数据集(Resilient Distributed DataSet,RDD),它是逻辑集中的实体,在集群中的多台集群上进行数据分区。通过对多台机器上不同RDD分区的控制,能够减少机器之间的数据重排(Data Shuffle...
分类:其他好文   时间:2015-09-14 00:30:20    阅读次数:253
Spark 编译
1.编译环境 CentOS6.6 ?JDK1.7.0_80 ?Maven3.2.5 2.下载Spark源代码并解压 [yyl@vmnode ~]$ pwd /home/yyl [yyl@vmnode make]$ pwd /home/yyl/make [yyl@vmnode make]$ wget http://mirrors.cnnic.cn/apache/s...
分类:其他好文   时间:2015-09-13 16:05:51    阅读次数:252
Scala中隐式参数与隐式转换的联合使用实战详解及其在Spark中的应用源码解析之Scala学习笔记-51
package com.leegh.implicits/** * @author Guohui Li */object Implicit_Conversions_with_Implicit_Parameters { def main(args: Array[String]): Unit = { .....
分类:其他好文   时间:2015-09-13 10:32:59    阅读次数:143
shuffle过程中的信息传递
Spark中的shuffle大概是这么个过程:map端把map输出写成本地文件,reduce端去读取这些文件,然后执行reduce操作。那么,问题来了:reducer是怎么知道它的输入在哪呢?首先,mapper在写完文件之后,肯定能提供与它的输出相关的信息。这个信息,在Spark中由MapStatu...
分类:其他好文   时间:2015-09-13 09:20:17    阅读次数:193
使用IDEA编译spark 1.5并运行example的代码
操作系统:windows 10IDEA : IDEA 14.1.41:使用IDEA导入spark 1.5的源码,注意maven配置为自动导入2:在maven窗口下的profiles中勾选hadoop, hive ,hive-thriftserver,yarn的选项。3: 在maven窗口下勾选gen...
分类:其他好文   时间:2015-09-12 22:16:54    阅读次数:274
Spark第一个研究笔记1一片 - Spark一个简短的引论
该公司推出的在线项目Spark拥有近1随着时间的推移。有效,Spark事实上,优秀的分布式计算平台,以提高生产力。开始本篇笔记。此前的研究会Spark研究报告共享出来(由于篇幅的限制,它将被划分成制品),为了帮助刚接触Spark的朋友们尽快入门。以下開始正文。1. 项目背景Spark项目于2009年...
分类:其他好文   时间:2015-09-12 14:38:17    阅读次数:148
Scala中隐式参数实战详解以及隐式参数在Spark中的应用源码解析之Scala学习笔记-50
package com.leegh.implicits/** * @author Guohui Li */object Context_Implicits { implicit val default: String = "java"}object Param { def print(conte.....
分类:其他好文   时间:2015-09-12 12:04:12    阅读次数:127
spark core源码分析15 Shuffle详解-写流程
Shuffle是一个比较复杂的过程,有必要详细剖析一下内部写的逻辑 ShuffleManager分为SortShuffleManager和HashShuffleManager 一、SortShuffleManager 每个ShuffleMapTask不会为每个Reducer生成一个单独的文件;相反,它会将所有的结果写到一个本地文件里,同时会生成一个index文件,Reducer可以通过这个index文件取得它需要处理的数据。避免产生大量的文件的直接收益就是节省了内存的使用和顺序Disk IO带来的低延时。 ...
分类:其他好文   时间:2015-09-12 09:37:25    阅读次数:197
Scala 深入浅出实战经典 第98讲:使用SBT开发时动手解决rt.jar中CharSequence is broken等问题
SBT的Console是交互的,能打包编译工程。DT大数据梦工厂微信公众账号:DT_Spark。DT大数据梦工厂的微信公众号是DT_Spark,每天都会有大数据实战视频发布,请您持续学习。王家林DT大数据梦工厂scala的所有视频、PPT和代码在百度云盘的链接:http://pan.baidu.com/share/home?uk=4..
分类:编程语言   时间:2015-09-12 08:30:20    阅读次数:267
Scala 深入浅出实战经典 第99讲:手动Artifacts打包并运行SBT开发Akka第一个案例
打包成jar包的方式:File->Projectstructure->Artfact->点+->JAR->Frommoduleswithdependencies...->选择module->可指定Mainclass->点击OKDT大数据梦工厂微信公众账号:DT_Spark。DT大数据梦工厂的微信公众号是DT_Spark,每天都会有大数据实战视频发布..
分类:其他好文   时间:2015-09-12 08:29:13    阅读次数:266
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!