最近我在做流式实时分布式计算系统的架构设计,而正好又要参见CSDN博文大赛的决赛。本来想就写Spark源码分析的文章吧。但是又想毕竟是决赛,要拿出一些自己的干货出来,仅仅是源码分析貌似分量不够。因此,我将最近一直在做的系统架构的思路整理出来,形成此文。为什么要参考Storm和Spark,因为没有参照效果可能不会太好,尤其是对于Storm和Spark由了解的同学来说,可能通过对比,更能体会到每个具体实现背后的意义。
本文对流式系统出现的背景,特点,数据HA,服务HA,节点间和计算逻辑间的消息传递,存储模型,...
分类:
其他好文 时间:
2014-08-02 18:25:23
阅读次数:
489
大数据分析技术MR :离线计算框架Storm :实时计算框架Spark :内存计算框架YARN 基本架构ResourceManager? 处理客户端请求? 启动/ 监控ApplicationMaster? 监控NodeManager? 资源分配与调度NodeManager? 单个节点上的资源管理? ...
分类:
其他好文 时间:
2014-08-02 09:57:33
阅读次数:
285
经过前面文章的SparkContext、DAGScheduler、TaskScheduler分析,再从总体上了解Spark Job的调度流程1、SparkContext将job的RDD DAG图提交给DAGScheduler;2、DAGScheduler将job分解成Stage DAG,将每个Sta...
分类:
其他好文 时间:
2014-08-02 04:07:42
阅读次数:
1266
近年来的大数据应用特别热,特别是Hadoop和Spark。但大家使用这些分布式文件系统和计算框架都需要一个分布式的集群环境,而大家手头一般没有多余的机器部署master和多个slave节点,就只能在VMware上多安装几个虚拟机来模拟集群的搭建,但是安装好一台虚拟机后,我想大部分的人都不想再耗时再重...
分类:
其他好文 时间:
2014-08-02 01:49:52
阅读次数:
267
1、文件系统本地性 第一次运行时数据不在内存中,需要从HDFS上取,任务最好运行在数据所在的节点上;2、内存本地性 第二次运行,数据已经在内存中,所有任务最好运行在该数据所在内存的节点上;3、LRU置换 如果数据只缓存在内存中而并没有缓存到磁盘上,此时数据被置换出内存,则从HDFS上读取; ...
分类:
其他好文 时间:
2014-08-02 01:47:22
阅读次数:
218
1、构建Spark Application运行环境;在Driver Program中新建SparkContext(包含sparkcontext的程序称为Driver Program);Spark Application运行的表现方式为:在集群上运行着一组独立的executor进程,这些进程由spar...
分类:
其他好文 时间:
2014-08-02 01:34:22
阅读次数:
292
val graph=GraphLoader.edgeListFile(sc,"/home/spark/spark/graphx/data/followers.txt")//加载边时顶点是边上出现的点,定点默认数据是1
val users = sc.textFile("/home/spark/spark/graphx/data/users.txt").map { line=>
val field...
分类:
其他好文 时间:
2014-08-01 23:17:12
阅读次数:
323
第二步:安装每个软件安装Vmware虚拟机点击“VMware-workstation-full-9.0.2-1031769”可执行文件,如下图所示:点击“Next”进入下一步: 我们选择“Custom”进入下一步;2.选择所有的功能,如下所示: 点击”Next”进入如下图所示界面: ...
分类:
其他好文 时间:
2014-08-01 15:56:51
阅读次数:
243
这是前段时间在看spark的python支持的时候,简单过了一下pyspark里的python代码,整理了一个大致流程。虽然几乎不会python,但基本上能看懂pyspark是怎么让不同虚拟机之间传输数据的、如何在python环境调用java类的、pyspark SDK的丰富程度取决于什么、需要做些什么流程和封装等。
我看了下,应该只有Pyspark Internals这篇wiki里介绍了pyspark的实现机制,大体是下面这张图就可以表示...
分类:
其他好文 时间:
2014-07-31 00:01:36
阅读次数:
515
Spark SQL 物理计划到 RDD 的计算过程实现。...
分类:
数据库 时间:
2014-07-29 22:08:02
阅读次数:
656