Spark计算速度远胜于Hadoop的原因之一就在于中间结果是缓存在内存而不是直接写入到disk,本文尝试分析Spark中存储子系统的构成,并以数据写入和数据读取为例,讲述清楚存储子系统中各部件的交互关系。
分类:
其他好文 时间:
2014-05-09 05:14:32
阅读次数:
405
一、准备工作: 1、下载release版spark
0.9.1,本次用的版本是spark-0.9.1-bin-cdh4。 2、下载scala IDE 3.0.2,这个版本ide的支持scala 2.10版。
二、配置工作 1、在ide中新建scala项目,注意jre要用jdk1.7版的。如下图: 2...
分类:
系统相关 时间:
2014-05-09 03:27:34
阅读次数:
512
很久不写 BO-KE 了,来一篇吧,记住这个成功的一刻,把几个主要文件贴出来:
core-site.xml:
fs.defaultFS
hdfs://fc20:9000
hadoop.tmp.dir
/home/ljq/hadoop/tm...
分类:
其他好文 时间:
2014-05-09 00:35:27
阅读次数:
342
Task的执行过程分析
Task的执行通过Worker启动时生成的Executor实例进行,
caseRegisteredExecutor(sparkProperties)=>
logInfo("Successfullyregistered with driver")
//Make this host instead of hostPort ?
executor=
newExecuto...
分类:
其他好文 时间:
2014-05-08 16:01:31
阅读次数:
667
本文通过跟代码的方式,分析从输入一批Pig-latin到输出物理执行计划(与launcher引擎有关,一般是MR执行计划,也可以是Spark RDD的执行算子)的整体流程。
不会具体涉及AST如何解析、如何使用了Anltr、逻辑执行计划如何映射、逻辑执行计划如何优化、MR执行计划如何切分为MR Job,而是从输入一批Pig DSL到待执行的真正执行计划的关键变化步骤(方法和类)。...
分类:
其他好文 时间:
2014-05-08 04:00:42
阅读次数:
407
当用户向YARN中提交一个应用程序后,YARN将分两个阶段运行该应用程序:第一个阶段是启动ApplicationMaster;第二个阶段是由ApplicationMaster创建应用程序,为它申请资源,并监控它的整个运行过程,直到运行完成。如图2-11所示,YARN的工作流程分为以下几个步骤:步骤1用户向YA..
分类:
其他好文 时间:
2014-05-08 03:40:11
阅读次数:
443
本文是Pig系统分析系列中的最后一篇了,主要讨论如何扩展Pig功能,不仅介绍Pig本身提供的UDFs扩展机制,还从架构上探讨Pig扩展可能性。
补充说明:前两天同事发现twitter推动的Pig On Spark项目:Spork,准备研究下。
UDFs
通过UDFs(用户自定义函数),可以自定义数据处理方法,扩展Pig功能。实际上,UDFS除了使用之前需要register/define外,和...
分类:
其他好文 时间:
2014-05-07 05:10:44
阅读次数:
567
这里介绍一下hadoop的组成, hadoop主要由两部分组成,,一个是hdfs,另一个是mapreduce
这两个部分在hadoop 2.2.0中分别用start-dfs.sh和start-yarn.sh启动。mapreduce 在2.0版本中有了一个新名字yarn.
dfs 主要用来启动 namenode 和 datanode, namenode既是是传说中的matser, datanod...
分类:
其他好文 时间:
2014-05-07 04:33:35
阅读次数:
359
MapReduce2.0(Yarn)
MapReduce2.0是在Hadoop0.23开始采用的,叫做MapReduce2.0或者MRv2或者Yarn。
MRv2的主要思想是把jobtracker的任务分为两个基本的功能,一个是资源管理,一个是任务监控,这两个任务分别用不同的进程来运行。这个想法使拥有一个全局的资源管理器(ResourceManager)和每个应用程序的应用...
分类:
其他好文 时间:
2014-05-07 04:05:06
阅读次数:
272
老是报物理内存越界,kill
container,然后把yarn.scheduler.minimum-allocation-mb设成2048就好了跟这个yarn.nodemanager.pmem-check-enabled参数应该也有关系在这篇文章中得到启发:http://bise.aliapp.c...
分类:
其他好文 时间:
2014-05-07 02:15:35
阅读次数:
409