Hadoop的背景起源二:MapReduce 一、什么是大数据,本质? (1)数据的存储:分布式文件系统(分布式存储) > HDFS: Hadoop Distributed File System (2)数据的计算:分布式计算 二、如何解决大数据的计算?分布式计算 (1)什么是PageRank(Ma ...
分类:
其他好文 时间:
2019-07-12 11:24:48
阅读次数:
91
前面2篇文章知道了HDFS的存储原理,知道了上传和下载文件的过程,同样也知晓了MR任务的执行过程,以及部分代码也已经看到,那么下一步就是程序员最关注的关于MR的业务代码(这里不说太简单的): 一、关于MapTask的排序 mapTask正常情况,按照key的hashcode进行从小到大的排序操作,形 ...
分类:
其他好文 时间:
2019-07-12 00:40:00
阅读次数:
108
hadoop 之hdfs数据块修复方法: 1、手动修复 hdfs fsck / #检查集群的健康状态 hdfs debug recoverLease -path 文件位置 -retries 重试次数 #修复指定的hdfs数据块。也就是关闭打开的文件。 检查坏块: hadoop fsck /user ... ...
分类:
其他好文 时间:
2019-07-10 18:23:22
阅读次数:
467
一、HDFS是一个分布式文件系统 体系架构: hdfs主要包含了3部分,namenode、datanode和secondaryNameNode namenode主要作用和运行方式: 1)管理hdfs的元数据信息,文件名字,大小,切成几块,有几个副本,切成块和副本分别存储在datanode的位置,块i ...
分类:
其他好文 时间:
2019-07-10 12:20:30
阅读次数:
130
一:手动HA切换搭建 实现步骤: 1.修改hdfs-site.xml <configuration> <property> <name>dfs.nameservices</name> <value>mycluster</value> </property> <property> <name>dfs. ...
分类:
其他好文 时间:
2019-07-09 15:12:44
阅读次数:
142
客户端的理解 hdfs的客户端有多种形式: 1、网页形式 2、命令行形式 3、客户端在哪里运行,没有约束,只要运行客户端的机器能够跟hdfs集群联网 文件的切块大小和存储的副本数量,都是由客户端决定! 所谓的由客户端决定,是通过配置参数来定的 hdfs的客户端会读以下两个参数,来决定切块大小、副本数 ...
分类:
其他好文 时间:
2019-07-09 09:34:09
阅读次数:
118
hdfs集群组成结构: 安装hdfs集群的具体步骤: 1、学习阶段,用虚拟机即可! 先准备4台虚拟机:1个namenode节点 + 3 个datanode 节点 2、修改各台机器的主机名和ip地址 主机名:hdp-01 对应的ip地址:192.168.33.61 主机名:hdp-02 对应的ip地址 ...
分类:
其他好文 时间:
2019-07-09 09:13:38
阅读次数:
117
在hue中访问hdfs报错: Cannot access: /. Note: you are a Hue admin but not a HDFS superuser, "hdfs" or part of HDFS supergroup, "supergroup". 原因: 解决方法: ...
分类:
其他好文 时间:
2019-07-08 00:19:52
阅读次数:
121
redis 持久化 交换 什么是持久化: 将数据从掉电易失的内存存放到能够永久存储的设备上 redis持久化方式:RDB(Redis DB) hdfs:fsimage(产生持久化镜像文件,以二进制格式文件的形式存储,对应reids的RDB文件) AOF(AppendOnlyFile) hdfs: e ...
分类:
其他好文 时间:
2019-07-06 19:19:06
阅读次数:
95