一、 ZooKeeper 简介 顾名思义 zookeeper 就是动物园管理员,他是用来管 hadoop(大象)、Hive(蜜蜂)、pig(小 猪)的管理员, Apache Hbase 和 Apache Solr 的分布式集群都用到了 zookeeper;Zookeeper: 是一个分布式的、开源的 ...
分类:
其他好文 时间:
2020-01-29 21:51:12
阅读次数:
65
配置前准备:安装MySQL MySQL在centOS上的安装传送门: 1、集群规划 2、修改hadoop106中MySQL的/usr/my.cnf配置文件。 3、重启hadoop106的MySQL服务 4、在hadoop106进入mysql客户端,执行以下命令,查看master状态 显示如下: 这样 ...
分类:
数据库 时间:
2020-01-28 23:07:08
阅读次数:
105
一、实验目的 (1)掌握在 Linux 虚拟机中安装 Hadoop 和 Spark 的方法; (2)熟悉 HDFS 的基本使用方法; (3)掌握使用 Spark 访问本地文件和 HDFS 文件的方法。 二、实验平台 操作系统:centos6.4; Scala版本:2.10.6.; Hadoop 版本 ...
分类:
其他好文 时间:
2020-01-28 19:11:15
阅读次数:
94
1. 下载安装 官网下载 选择版本和type,这里为 spark-2.4.4-bin-without-hadoop.tgz 1.1 命令下载: 1 cd ~/software 2 wget http://apache.communilink.net/spark/spark-2.4.4/spark-2 ...
分类:
其他好文 时间:
2020-01-28 15:40:38
阅读次数:
53
1)资源相关参数 (1)以下参数是在用户自己的mr应用程序中配置就可以生效(mapred-default.xml) 配置参数 参数说明 mapreduce.map.memory.mb 一个Map Task可使用的资源上限(单位:MB),默认为1024。如果Map Task实际使用的资源量超过该值,则 ...
分类:
其他好文 时间:
2020-01-28 12:23:08
阅读次数:
98
首先要配置spark环境:包括linux系统的安装,java,ssh,Hadoop,Scala,spark的安装与环境变量设置。 linux虚拟机、ssh、Hadoop已经安装完毕,Scala,spark还未安装 然后进行java的学习,在以前的学习中java已经学习了一部分,这次还需要继续进行相应 ...
分类:
其他好文 时间:
2020-01-27 22:19:21
阅读次数:
85
1、准备工作 1.1 给虚拟机取个 hostname。 而且配置 hosts。如果要和win做联合开发的话,和win的hosts文件,做一样的域名映射。 # 127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdo ...
分类:
系统相关 时间:
2020-01-27 22:00:19
阅读次数:
106
1、数据输入小文件处理: (1)合并小文件:对小文件进行归档、自定义 inputformat 将小文件存储成sequenceFile 文件。 SequenceFile:https://blog.csdn.net/en_joker/article/details/79648861 (2)采用 Conb ...
分类:
其他好文 时间:
2020-01-27 20:40:11
阅读次数:
98
一、Hive的概述 1、Hive的定义 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL进行数据读取、写入和管理。 2、Hive的架构图 hive的各个组成部分介绍: 用户接口:包括 CLI、JDBC/ODBC、WebGUI。 元数据存储:通常是 ...
分类:
其他好文 时间:
2020-01-27 12:31:16
阅读次数:
82
今天主要学习了对spark的初步认识以及相应名词的理解 包括Spark特点、 Scala特性、BDAS架构、Spark组件的应用场景、Spark基本概念、Spark运行架构、 Spark架构设计的优点 、Spark各种概念之间的相互关系 Hadoop 是基于磁盘的大数据计算框架 Spark是基于内存 ...
分类:
其他好文 时间:
2020-01-26 22:32:22
阅读次数:
95