第一部分: hadoop rpc基础RPC,远程程序调用,分布式计算中C/S模型的一个应用实例。同其他RPC框架一样,Hadoop分为四个部分:序列化层:支持多种框架实现序列化与反序列化函数调用层:利用java反射与动态代理实现网络传输层:基于TCP/IP的Socket机制服务的处理框架:基于Rea...
分类:
其他好文 时间:
2014-08-23 01:06:09
阅读次数:
277
抽了点时间体验了一把python分布式进程,有点像分布式计算的意思,不过我现在还没有这个需求,先把简单体验的脚本发出来,供路过的各位高手指教注:需要先下载multiprocessing的python包支持才行。管理端:cattask_manager.py#!/usr/bin/envpython#coding:utf8importrandom,tim..
分类:
编程语言 时间:
2014-08-21 19:38:05
阅读次数:
246
Hive是为了简化编写MapReduce程序而生的,使用MapReduce做过数据分析的人都知道,很多分析程序除业务逻辑不同外,程序流程基本一样。在这种情况下,就需要Hive这样的用戶编程接口。Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce,Hive中的表纯逻辑,就是些表的定义等,也就是表的元数据。使用SQL实现Hive是因为SQL大家都熟悉,转换成本低,类似作用的Pig就...
分类:
其他好文 时间:
2014-08-21 19:27:44
阅读次数:
148
大数据下的游戏营销模式革新邓大付博士腾讯专家工程师Bio:毕业于华中科技大学,现任腾讯IEG运营部数据中心技术副总监,负责腾讯游戏的数据挖掘相关工作,包括有用户画像,推荐系统,基础算法研究等。主要感兴趣的领域包括有分布式计算平台系统架构,机器学习算法等。=======================...
分类:
其他好文 时间:
2014-08-13 00:42:25
阅读次数:
453
一、简介 RPC是Remote Procedure Call的缩写,翻译成中文为:远程方法调用。它是一种在本地机器上调用远端机器上的一个过程(方法)的技术,这个过程也被大家称为“分布式计算”,是为了提高各个分立机器的“互操作性”而发明出来的技术。 XML-RPC的全称是XML Remote Pr.....
分类:
编程语言 时间:
2014-08-11 11:41:12
阅读次数:
200
随着处理器提升速度下降和数据量的不断增长,很多公司和组织(既有互联网公司也有传统的企业还有一些研究机构)都要求他们的应用能够Scale out到更大的分布式系统上(比如整个数据中心)。这些应用又分为以下几种类型:...
分类:
其他好文 时间:
2014-08-05 19:28:10
阅读次数:
245
Actor模式是一个解决分布式计算的数学模型,其中Actor是基础,它能回应接收到消息,能够自我决策,创建更多的Actor,发送更多的消息,决定 如何回应下一个接收到的消息。Actor认为一切皆是Actor,类似于面向对象认为一切皆Object一样。OO的执行是顺序的,Actor模型内在设 计就是并...
分类:
其他好文 时间:
2014-08-04 16:57:27
阅读次数:
337
Apache Crunch是FlumeJava的实现,为不太方便直接开发和使用的MapReduce程序,开发一套MR流水线,具备数据表示模型,提供基础原语和高级原语,根据底层执行引擎对MR Job的执行进行优化。从分布式计算角度看,Crunch提供的许多计算原语,可以在Spark、Hive、Pig等地方找到很多相似之处,而本身的数据读写,序列化处理,分组、排序、聚合的实现,类似MapReduce各阶段的拆分都可以在Hadoop里找到影子。
本文介绍Crunch在数据表示模型、操作原语、序列化处理方面的设计和...
分类:
其他好文 时间:
2014-08-03 18:02:06
阅读次数:
267
最近我在做流式实时分布式计算系统的架构设计,而正好又要参见CSDN博文大赛的决赛。本来想就写Spark源码分析的文章吧。但是又想毕竟是决赛,要拿出一些自己的干货出来,仅仅是源码分析貌似分量不够。因此,我将最近一直在做的系统架构的思路整理出来,形成此文。为什么要参考Storm和Spark,因为没有参照效果可能不会太好,尤其是对于Storm和Spark由了解的同学来说,可能通过对比,更能体会到每个具体实现背后的意义。
本文对流式系统出现的背景,特点,数据HA,服务HA,节点间和计算逻辑间的消息传递,存储模型,...
分类:
其他好文 时间:
2014-08-02 18:25:23
阅读次数:
489
Hadoop与Hadoop生态系统的区别Hadoop:是一个适合大数据分布式存储和分布式计算的平台,在Hadoop1.x中对应于HDFS和MapReduce;Hadoop生态系统:是一个很庞大的概念,Hadoop是其中最重要最基础的一个部分;生态系统中的每个子系统只负责解决某一个特定的问题域(甚至可...
分类:
其他好文 时间:
2014-08-02 15:27:03
阅读次数:
215