画一个简单的hadoop执行图 这里我以单词计数为例,在WCapp(在上篇博文《split数量计算法则》有源码)中设置最小切片数值和最大切片数值,把最大切片数值设置成13,即13个字节 要计数的数据 这里有个问题我们把切片值的设的很小,第一个切片读到的内容:hello world t,那么一个切片装 ...
分类:
其他好文 时间:
2018-10-18 14:00:10
阅读次数:
215
Apache 首先我们要明白,Apache 是一个 http 服务器,而我们熟悉的另一种说法"Apache Hadoop"中的 Apache 则指的是 Apache 软件基金会。"Apache"是 Apache 软件基金会中的一个项目。 关于其名字,流传最广的解释是(也是最显而易见的):这个名字来自 ...
分类:
其他好文 时间:
2018-10-17 00:12:47
阅读次数:
155
RPC:远程过程调用 进程之间相互调用 远程过程调用有很多线程的框架,例如: 1-JAVA的RMI 2-Webservice 3-hadoop中的RPC hadoop中各个节点之间的通信都是使用RPC Hadoop中的RPC Hadoop中各个节点之间的交互都是基于RPC的,底层原理同上面所描述的。 ...
分类:
其他好文 时间:
2018-10-11 19:02:24
阅读次数:
140
一、简介 HIVE 是一个数据仓库,说白了就是把一些数据结构化的文件,映射成一张表,并且提供sql 接口去查询对应的数据。简单的查询不会经过mapreduce,涉及到排序之类,会生成一个hadoop 中的一个map reduce任务去执行。海量的数据文件都输存放在hdfs 中,所以hive 依赖于h ...
分类:
其他好文 时间:
2018-10-08 18:44:58
阅读次数:
166
下面是经常使用到的,以此记录备忘 1.查看hadoop目录 2.创建目录 3.将文件上传hadoop中(也就是hdfs中)。下面是上传文件t1.txt到hadoop里 spark工作时有时会使用到 ...
分类:
其他好文 时间:
2018-10-03 00:16:10
阅读次数:
238
******************* 一定要使这三台机器的用户名相同,安装目录相同 ************* SSH 无密钥登录的简单介绍(之前再搭建本地伪分布式的时候,就生成了,现在这三台机器的公钥私钥都是一样的,所以下面这个不用配置) 单机操作: 生成密钥:命令 ssh-keygen -t ...
分类:
其他好文 时间:
2018-09-29 21:36:07
阅读次数:
229
Hive是什么1)Hive 是建立在Hadoop (HDFS/MR)上的用于管理和查询结果化/非结构化的数据仓库;2)一种可以存储、查询和分析存储在Hadoop 中的大规模数据的机制;3)Hive 定义了简单的类SQL 查询语言,称为HQL,它允许熟悉SQL 的用户查询数据;4)允许用Java开发自 ...
分类:
其他好文 时间:
2018-09-28 14:38:47
阅读次数:
193
1.什么是Shuffle机制 1.1)在Hadoop中数据从Map阶段传递给Reduce阶段的过程就叫Shuffle,Shuffle机制是整个MapReduce框架中最核心的部分。 1.2)Shuffle翻译成中文的意思为:洗牌、发牌(核心机制:数据分区、排序、缓存) 2.Shuffle的作用范围 ...
分类:
其他好文 时间:
2018-09-26 11:43:59
阅读次数:
209
1、什么是hadoop hadoop中有3个核心组件: 分布式文件系统:HDFS —— 实现将文件分布式存储在很多的服务器上 分布式运算编程框架:MAPREDUCE —— 实现在很多机器上分布式并行运算 分布式资源调度平台:YARN —— 帮用户调度大量的mapreduce程序,并合理分配运算资源 ...
分类:
其他好文 时间:
2018-09-22 19:52:16
阅读次数:
169
Hadoop排序,从大的范围来说有两种排序,一种是按照key排序,一种是按照value排序。如果按照value排序,只需在map函数中将key和value对调,然后在reduce函数中在对调回去。从小范围来说排序又分成部分排序,全局排序,辅助排序,二次排序等。本文介绍如何在Hadoop中实现全局排序 ...
分类:
编程语言 时间:
2018-09-06 02:34:47
阅读次数:
166