一. Spark基础知识 1.Spark是什么?UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架。dfsSpark基于mapreduce算法实现的分布式计算,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结... ...
分类:
其他好文 时间:
2016-12-12 12:01:08
阅读次数:
355
1、基本概念 进程(Process)是Windows系统中的一个基本概念,它包含着一个运行程序所需要的资源。进程之间是相对独立的,一个进程无法访问另一个进程的数据(除非利用分布式计算方式),一个进程运行的失败也不会影响其他进程的运行,Windows系统就是利用进程把工作划分为多个独立的区域的。进程可 ...
分类:
编程语言 时间:
2016-12-11 18:20:07
阅读次数:
310
在现在这个大数据时代,Hadoop和Spark是最潮流的两个词汇,Hadoop是一种分布式计算框架,由Google提出,主要用于搜索领域,解决海量数据的计算问题,Hadoop中的MapReduce包括...
分类:
其他好文 时间:
2016-12-07 18:22:29
阅读次数:
206
认知和学习Hadoop,我们必须得了解Hadoop的构成,我根据自己的经验通过Hadoop构件、大数据处理流程,Hadoop核心三个方面进行一下介绍:Hadoop组件由图我们可以看到Hadoop组件由底层的Hadoop核心构件以及上层的Hadoop生态系统共同集成,而上层的生态系统都是基于下层的存储和计..
分类:
其他好文 时间:
2016-12-02 04:03:00
阅读次数:
246
集群(Cluster) 指一组计算机系统构成一个松耦合的多处理器系统,它们之间通过网络实现进程间的通信,实现分布式计算。在客户端看来就像是只有一个服务器。集群可以利用多个计算机进行并行计算从而获得很高的计算速度,也可以用多个计算机做备份,从而使得任何一个机器坏了整个系统还是能正常运行。 集群技术的分... ...
分类:
其他好文 时间:
2016-12-01 02:08:54
阅读次数:
198
1.MapReduce原理(****理解***) Ø 思考:怎样解决海量数据的计算? Ø MapReduce概述 MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题. l MapReduce由两个阶段组成: u map():任务分解 u reduce ...
分类:
其他好文 时间:
2016-11-30 23:11:45
阅读次数:
299
Kafka是用于日志处理的分布式消息队列,Kafka使用scala语言开发的。 各个开源分布式处理系统Cloudera、Apache Storm、Spark都支持与Kafka集成。其日志处理的一个场景:Kafka采集日志以后,经过spark分布式计算,将日志数据导入到HBase中。Kafka采集的日 ...
分类:
其他好文 时间:
2016-11-29 21:35:02
阅读次数:
188
《深入篇》我们主要围绕 RPC 的功能目标和实现考量去展开,一个基本的 RPC 框架应该提供什么功能,满足什么要求以及如何去实现它? RPC 功能目标 RPC 的主要功能目标是让构建分布式计算(应用)更容易,在提供强大的远程调用能力时不损失本地调用的语义简洁性。为实现该目标,RPC 框架需提供一种透 ...
分类:
其他好文 时间:
2016-11-27 06:41:22
阅读次数:
216
UUID含义是通用唯一识别码 (Universally Unique Identifier),这 是一个软件建构的标准,也是被开源软件基金会 (Open Software Foundation, OSF) 的组织应用在分布式计算环境 (Distributed Computing Environmen ...
分类:
编程语言 时间:
2016-11-26 11:42:27
阅读次数:
322
大数据成为了当下发展的一种趋势,很多人去追求大数据的学习,但是苦于无从下手,今天编者根据自己的经验系统总结一下大数据学习的方略:第一步:感性认识,找准思路(1)看一些大数据发展及应用,了解市场形势(2)阅读大数据相关书籍,了解知识架构对上面基本知识有一个了解..
分类:
其他好文 时间:
2016-11-24 22:20:09
阅读次数:
184