HDFS HA高可用 1 HA概述 1)所谓HA(high available),即高可用(7*24小时不中断服务)。 2)实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA。 3)Hadoop2.0之前,在HDFS集群中NameNode存在 ...
分类:
其他好文 时间:
2018-08-29 13:56:07
阅读次数:
132
Linux环境设置/*安装Hadoop集群时要确保以下几个方面1.本机与虚拟机之间是否可以通信(Ping)。如果不行检查下面 1.1本机防火墙关闭(开启情况是本机可以ping虚拟机,虚拟机不能ping本机) 1.2虚拟机是克隆的情况(按照Linux文档中,修改ip地址等方法) 1.3虚拟机设置--网 ...
分类:
其他好文 时间:
2018-08-16 17:41:39
阅读次数:
205
最近在学习hadoop,分享一个64位编译的bug. Ubuntu 14.04JDK 1.8maven 3.5.4hadoop 2.9.1ProtocolBuffer 2.5.0cmake 3.6ubuntu 14.04 下hadoop2.9.1 64位编译 下面这部分是BUILDING里复制过来的 ...
分类:
系统相关 时间:
2018-08-15 16:56:16
阅读次数:
288
今天来介绍新手学习hadoop的入门注意事项。这篇文章一来谈谈hadoop核心知识学习。 首先hadoop分为hadoop1.X和hadoop2.X,并且还有hadoop生态系统,那么下面我们以hadoop2.x为例进行详细介绍: Hadoop的核心是mapreduce和hdfs。 Mapreduc ...
分类:
其他好文 时间:
2018-08-13 14:11:37
阅读次数:
167
1、下载如下放在D盘添加SPARK_HOME=D:\spark-2.3.0-bin-hadoop2.7。并将%SPARK_HOME%/bin添加至环境变量PATH。然后进入命令行,输入pyspark命令。若成功执行。则成功设置环境变量找到pycharmsitepackage目录右键点击即可进入目录,将上面D:\spark-2.3.0-bin-hadoop2.7里面有个/python/pyspark
分类:
编程语言 时间:
2018-08-09 18:29:29
阅读次数:
366
针对客户特定的数据需求,需要定期同步数据,使用python语言实现一个简单的同步程序。只需要一个配置文件即可达到数据同步的功能。 ...
分类:
编程语言 时间:
2018-08-07 15:10:40
阅读次数:
455
1、新建文件夹 mkdir bigdata;在当前文件夹下新建bigdata文件夹; 2、显示当前文件夹全目录 pwd; 3、移动文件:mv /usr/etc/spark-2.3.1-bin-hadoop2.7.tgz /usr/etc/bigdata/ 4 、解压到当前文件夹 tar zxvf s ...
分类:
系统相关 时间:
2018-08-06 13:41:55
阅读次数:
131
一、MRUnit测试jar包mrunit-1.1.0-hadoop2.jar第三方依赖MRUnit\apache-mrunit-1.1.0-hadoop1-bin\lib二、在现有工程里面配置MRUnit单元测试1、新建一个userlib2、将MRUnitLib添加到mr工程,如下图:3、解决jar包冲突由于在MRUnitLib包中存在mockito-core-1.9.5.jar包,该包和E:\d
分类:
其他好文 时间:
2018-08-06 10:25:13
阅读次数:
153
1, 电脑环境准备 1), 关闭selinux 2), 时间同步 修改时间服务器配置, 并重启 修改需要同步的服务器配置, 并重启 执行时间同步 查看时间同步: 3), 修改hostname, 很多集群都需要执行这一个 4), jdk 版本 java -version 1.8.0_161 5), 设 ...
分类:
其他好文 时间:
2018-08-03 17:30:40
阅读次数:
234
该文章是基于 Hadoop2.7.6_01_部署 进行的 Flume官方文档:FlumeUserGuide 常见问题:记flume部署过程中遇到的问题以及解决方法(持续更新) 1. 前言 在一个完整的大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集、 ...
分类:
Web程序 时间:
2018-08-01 20:42:01
阅读次数:
194