Spark大数据计算框架、架构、计算模型和数据管理策略及Spark在工业界的应用。围绕Spark的BDAS项目及其子项目进行了简要介绍。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、SparkStreaming、GraphX、MLlib等子项目,本章只进行简要介绍,后续章..
分类:
其他好文 时间:
2017-07-07 20:18:35
阅读次数:
128
Spark MLlib介绍 Spark之所以在机器学习方面具有得天独厚的优势,有以下几点原因: (1)机器学习算法一般都有很多个步骤迭代计算的过程,机器学习的计算需要在多次迭代后获得足够小的误差或者足够收敛才会停止,迭代时如果使用Hadoop的MapReduce计算框架,每次计算都要读/写磁盘以及任 ...
分类:
其他好文 时间:
2017-07-06 13:26:57
阅读次数:
254
分布式流处理是对无边界数据集进行连续不断的处理、聚合和分析的过程,与MapReduce一样是一种通用计算框架,期望延迟在毫秒或者秒级别。这类系统一般采用有向无环图(DAG)。DAG是任务链的图形化表示,用它来描述流处理作业的拓扑。在选择不同的流处理系统时,通常会关注以下几点: 运行时和编程模型:平台 ...
分类:
其他好文 时间:
2017-07-06 00:29:25
阅读次数:
241
?? Storm工作原理: Storm是一个开源的分布式实时计算系统,常被称为流式计算框架。什么是流式计算呢?通俗来讲,流式计算顾名思义:数据流源源不断的来,一边来,一边计算结果,再进入下一个流。比如一般金融系统一直不断的执行,金融交易、用户全部行为都记录进日志里,日志分析出站点运维、猎户信息。海量 ...
分类:
其他好文 时间:
2017-07-01 12:47:15
阅读次数:
200
Hadoop内核 | MapReduce(分布式计算框架) 源于Google的MapReduce论文 > √发表于2004年12月 √Hadoop MapReduce是Google MapReduce克隆版 MapReduce特点 > √良好的扩展性 √高容错性 √适合PB级以上海量数据的离线处理 ...
分类:
其他好文 时间:
2017-06-25 13:48:26
阅读次数:
117
Hadoop内核 | YARN (资源管理系统) YARN是什么? √Hadoop2.0新增系统 √负责集群的资源管理和调度 √使得多种计算框架可以运行在一个集群中 YARN的特点 √良好的扩展性、高可用性 √对多种类型的应用程序进行统一管理和调度 √自带了多种多用户调度器,适合共享集群环境 ...
分类:
其他好文 时间:
2017-06-24 23:40:35
阅读次数:
213
摘要: Tachyon是一种分布式文件系统,能够借助集群计算框架使得数据以内存的速度进行共享。当今的缓存技术优化了read过程,可是,write过程由于须要容错机制,就须要通过网络或者是磁盘进行复制操作。Tachyon通过将“血统”技术引入到存储层进而消除了这个瓶颈。创建一个长期的以“血统机制”为基 ...
分类:
其他好文 时间:
2017-06-24 11:11:12
阅读次数:
227
Dataflow编程模型和spark streaming结合 主要介绍一下Dataflow编程模型的基本思想,后面再简单比较一下Spark streaming的编程模型 == 是什么 == 为用户提供以流式或批量模式处理海量数据的能力,该服务的编程接口模型(或者说计算框架)也就是下面要讨论的data ...
分类:
其他好文 时间:
2017-06-21 23:09:04
阅读次数:
367
大数据时代之hadoop(一):hadoop安装“兵马未动,粮草先行”,要想深入的了解hadoop,我认为启动或停止hadoop的脚本是必需要先了解的。说究竟。hadoop就是一个分布式存储和计算框架,可是这个分布式环境是怎样启动。管理的呢,我就带着大家先从脚本入手吧。说实话,hadoop的启动脚本 ...
分类:
其他好文 时间:
2017-06-10 16:59:50
阅读次数:
280
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算。 HDFS是Google File System(GFS)的开源实现,MapReduce是Google MapReduce的开源实现。 HDFS和MapRed ...
分类:
其他好文 时间:
2017-06-09 14:14:09
阅读次数:
254