一、基础环境 1.虚拟机 VMware 15.0 2.CentOS 6.5 Linux 系统 二、MapReduce的原理分析 三、Yarn集群搭建 1.准备好三台虚拟机(这里我直接拷贝了Ha集群中一个作为主机,其余克隆) 2.修改基础配置: 1.删除每一台机器的Mac地址(CentOS 7 以上不 ...
分类:
其他好文 时间:
2019-12-30 23:15:14
阅读次数:
116
一.简介 1.什么是spark Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行计算框架,Spark拥有Hadoop MapReduc ...
分类:
其他好文 时间:
2019-12-30 14:10:45
阅读次数:
100
一、TestDFSIO 读写性能测试切换到目录: /opt/hadoop/share/hadoop/mapreduce/ 清空数据hadoop jar hadoop-mapreduce-client-jobclient-2.6.4.jar -cleanhadoop fs -ls /benchmark ...
分类:
其他好文 时间:
2019-12-29 23:30:19
阅读次数:
113
本文介绍在mapreduce程序运行中自定义分区实现
分类:
其他好文 时间:
2019-12-29 09:19:27
阅读次数:
71
本文始发于个人公众号:TechFlow 近两年AI成了最火热领域的代名词,各大高校纷纷推出了人工智能专业。但其实,人工智能也好,还是前两年的深度学习或者是机器学习也罢,都离不开底层的数据支持。对于动辄数以TB记级别的数据,显然常规的数据库是满足不了要求的。今天,我们就来看看大数据时代的幕后英雄——H ...
分类:
其他好文 时间:
2019-12-28 22:38:52
阅读次数:
106
sqoop简介 sqoop是一款开源的工具,主要用于在hadoop和与传统的数据库之间进行的数据的传递,可以将一个关系型数据库中的数据导入到hadoop的hdfs中,也可以将hdfs的数据导入到关系型数据库中。sqoop的命名由来就是 ,它的原理就是将导入或者导出命令翻译成MapReduce来实现, ...
分类:
数据库 时间:
2019-12-28 16:30:57
阅读次数:
131
HDFS架构概述 HDFS(Hadoop Distributed File System)的架构 2.5.3 MapReduce架构概述 MapReduce将计算过程分为两个阶段:Map和Reduce,如图2-25所示 1)Map阶段并行处理输入数据 2)Reduce阶段对Map结果进行汇总 图中涉 ...
分类:
其他好文 时间:
2019-12-27 21:42:53
阅读次数:
71
本文在Windows端实现了WordCount功能
分类:
其他好文 时间:
2019-12-27 19:40:55
阅读次数:
100
1. 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL转化成MapReduce程序 1)Hive处理的数据存储在HDFS 2)Hive分析数 ...
分类:
其他好文 时间:
2019-12-27 13:08:13
阅读次数:
92