一.简介 1.什么是spark Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行计算框架,Spark拥有Hadoop MapReduc ...
分类:
其他好文 时间:
2019-12-30 14:10:45
阅读次数:
100
一、TestDFSIO 读写性能测试切换到目录: /opt/hadoop/share/hadoop/mapreduce/ 清空数据hadoop jar hadoop-mapreduce-client-jobclient-2.6.4.jar -cleanhadoop fs -ls /benchmark ...
分类:
其他好文 时间:
2019-12-29 23:30:19
阅读次数:
113
一、为什么namenode持久化 namenode通过内存存储hdfs集群的元数据(目录结构 文件信息 块对应关系),如果内存出现问题,那么会数据丢失,需要通过持久化,把内存中的数据定期的存储在硬盘中,进而保证namenode的数据安全。 二、持久化的原理 1、FSImage (某一时刻 namen ...
分类:
其他好文 时间:
2019-12-29 18:48:03
阅读次数:
133
下面记录下hadoop完全分布式安装的过程,其中hadoop使用的版本是apache下的,不是cdh。 完全分布式示意图 下面在三台节点上安装hadoop完全分布式,其中一个服务器节点上将有多个hadoop相关的节点,最后是压缩到三台的安装效果,正常来说至少13个服务节点。 (1)zookeeper ...
分类:
其他好文 时间:
2019-12-29 11:22:41
阅读次数:
118
本文介绍在mapreduce程序运行中自定义分区实现
分类:
其他好文 时间:
2019-12-29 09:19:27
阅读次数:
71
下载Hadoop安装包 下载Hadoop安装包 登录 https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/ 镜像站,找到我们要安装的版本,点击进去复制下载链接 安装Hadoop时要注意版本与后续安装的HBase、Spark等相关组件的兼 ...
分类:
其他好文 时间:
2019-12-28 23:14:30
阅读次数:
162
Hadoop运行在java环境,所以在安装Hadoop之前,需要安装好jdk 提前下载好jdk安装包(jdk-8u161-linux-x64.tar.gz),将它上传到指定的安装目录当中,然后运行安装 配置服务器环境变量 在尾部添加下面配置 保存退出后,运行命令,让配置马上生效 将java安装包同步 ...
分类:
编程语言 时间:
2019-12-28 22:51:09
阅读次数:
81
启动和关闭Hadoop集群命令步骤总结: 1. 在master上启动hadoop-daemon.sh start namenode.2. 在slave上启动hadoop-daemon.sh start datanode.3. 用jps指令观察执行结果.4. 用hdfs dfsadmin -repor ...
分类:
其他好文 时间:
2019-12-28 22:47:34
阅读次数:
878
Hadoop的NameNode需要启动集群中所有机器的Hadoop守护进程,这个过程需要通过SSH登录来实现 Hadoop并没有提供SSH输入密码登录的形式,因此,为了能够顺利登录每台机器,需要将所有机器配置为NameNode可以免密登录 由于是双master,所以需要在master与master_ ...
分类:
其他好文 时间:
2019-12-28 22:43:47
阅读次数:
88
本文始发于个人公众号:TechFlow 近两年AI成了最火热领域的代名词,各大高校纷纷推出了人工智能专业。但其实,人工智能也好,还是前两年的深度学习或者是机器学习也罢,都离不开底层的数据支持。对于动辄数以TB记级别的数据,显然常规的数据库是满足不了要求的。今天,我们就来看看大数据时代的幕后英雄——H ...
分类:
其他好文 时间:
2019-12-28 22:38:52
阅读次数:
106