本文详细总结Spark分布式集群的安装步骤,帮助想要学习Spark的技术爱好者快速搭建Spark的学习研究环境。...
分类:
其他好文 时间:
2014-07-14 17:17:25
阅读次数:
289
前言: 作为Hadoop生态系统中重要的一员, HBase作为分布式列式存储, 在线实时处理的特性, 备受瞩目, 将来能在很多应用场景, 取代传统关系型数据库的江湖地位. 本篇博文重点讲解HBase的数据导入, 描述三种方式, Client API, Bulkload, 以及Hive Over .....
分类:
其他好文 时间:
2014-07-14 15:51:39
阅读次数:
288
回 到 目 录最近要从网上抓取数据下来,然后hadoop来做存储和分析。每晚尽量更新呆毛王赛高月子酱赛高小唯酱赛高目录 安装hadoop1.0.3 HDFS wordcount mapreduce去重 mapreduce算平均分 mapreduce排序安装hadoop1.0.3 1 u...
分类:
其他好文 时间:
2014-07-14 15:14:34
阅读次数:
279
Hadoop YARN组件间的主要通信协议简介。...
分类:
其他好文 时间:
2014-07-14 14:04:13
阅读次数:
221
前言 MapReduce的源码分析是基于Hadoop1.2.1基础上进行的代码分析。 该章节会分析在MapTask端的详细处理流程以及MapOutputCollector是如何处理map之后的collect输出的数据。 map端的主要处理流程
图1 MapTask处理流程 图1所示为MapTask的主要代码执行流程,在MapTask启动后会进入入口run函数,根据是否使用...
分类:
其他好文 时间:
2014-07-14 13:31:33
阅读次数:
392
Hadoop YARN ApplicationMaster程序设计概述。...
分类:
其他好文 时间:
2014-07-14 11:27:32
阅读次数:
267
Hadoop MapReduce On YARN的实现 --- MRAppMaster内部组件剖析。...
分类:
移动开发 时间:
2014-07-14 11:26:56
阅读次数:
340
又是期末又是实训TA的事耽搁了好久……先把写好的放上博客吧前文:用python + hadoop streaming 编写分布式程序(一) -- 原理介绍,样例程序与本地调试用python + hadoop streaming 编写分布式程序(二) -- 在集群上运行与监控使用额外的文件假如你跑的j...
分类:
编程语言 时间:
2014-07-14 10:59:55
阅读次数:
335