很多时候,定义清楚问题比解决问题更难。 什么是MapReduce? 它不是一个产品,而是一种解决问题的思路,它有多个工程实现,Google在论文中也给出了它自己的工程架构实现。 MapReduce这个编程模型解决什么问题? 能够用分治法解决的问题,例如: 网页抓取 日志处理 索引倒排 查询请求汇总 ...
分类:
其他好文 时间:
2018-12-12 12:55:03
阅读次数:
185
Yarn的概述 Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而mapreduce等运算程序则相当于运行于操作系统之上的应用程序 Yarn的重要概念 1、 yarn并不清楚用户提交的程序的运行机制 2、 yarn只提供运算资源的调度(用户程序向yarn ...
分类:
其他好文 时间:
2018-12-11 12:44:29
阅读次数:
234
1.什么是序列化 2.为什么要序列化 3.为什么不用Java的序列化 4.自定义bean对象实现序列化接口(Writable) 在企业开发中往往常用的基本序列化类型不能满足所有需求,比如在Hadoop框架内部传递一个bean对象,那么该对象就需要实现序列化接口。 具体实现bean对象序列化步骤如下7 ...
分类:
其他好文 时间:
2018-12-10 19:13:06
阅读次数:
205
一、大数据相关概念 Bigdata: 结构化数据 半结构化数据 非结构化数据 搜索引擎:搜索组件、索引组件,由蜘蛛程序搜集而来 存储平台 分析处理平台 Google: 2003年:The Google File System 2004年:MapReduce:Simplified Data Procc ...
分类:
其他好文 时间:
2018-12-10 00:01:21
阅读次数:
208
之前写过关于Hadoop方面的MapReduce框架的文章MapReduce框架Hadoop应用(一) 介绍了MapReduce的模型和Hadoop下的MapReduce框架,此文章将进一步介绍mapreduce计算模型能用于解决什么问题及有什么巧妙优化。 MapReduce到底解决什么问题? Ma ...
分类:
其他好文 时间:
2018-12-09 17:28:16
阅读次数:
234
大数据初始化环境搭建: 一):大数据(hadoop)初始化环境搭建 二):大数据(hadoop)环境搭建 三):运行wordcount案例 四):揭秘HDFS 五):揭秘MapReduce 六):揭秘HBase 七):HBase编程 1):需要准备三个虚拟机环境(创建方式:可以单独创建三个虚拟机:点 ...
分类:
其他好文 时间:
2018-12-08 14:46:52
阅读次数:
185
运行 wordcount 案例: 一):大数据(hadoop)初始化环境搭建 二):大数据(hadoop)环境搭建 三):运行wordcount案例 四):揭秘HDFS 五):揭秘MapReduce 六):揭秘HBase 七):HBase编程 Hadoop集群测试wordcount程序: 1):在b ...
分类:
其他好文 时间:
2018-12-08 14:46:14
阅读次数:
253
大数据 hadoop 环境搭建: 一):大数据(hadoop)初始化环境搭建 二):大数据(hadoop)环境搭建 三):运行wordcount案例 四):揭秘HDFS 五):揭秘MapReduce 六):揭秘HBase 七):HBase编程 1):下载安装 hadoop(这里使用2.8版本:点我下 ...
分类:
其他好文 时间:
2018-12-08 14:42:15
阅读次数:
214
1、Hadoop生态概况 Hadoop是一个由Apache基金会所开发的分布式系统集成架构,用户可以在不了解分布式底层细节情况下,开发分布式程序,充分利用集群的威力来进行高速运算与存储,具有可靠、高效、可伸缩的特点 Hadoop的核心是YARN,HDFS,Mapreduce,常用模块架构如下 ? 我 ...
分类:
其他好文 时间:
2018-12-07 14:44:49
阅读次数:
239
mapreduce实现思路: Map阶段: a) 从HDFS的源数据文件中逐行读取数据 b) 将每一行数据切分出单词 c) 为每一个单词构造一个键值对(单词,1) d) 将键值对发送给reduce Reduce阶段: a) 接收map阶段输出的单词键值对 b) 将相同单词的键值对汇聚成一组 c) 对 ...
分类:
其他好文 时间:
2018-12-06 20:37:03
阅读次数:
214