前言 最近在搞hadoop+spark+python,所以就搭建了一个本地的hadoop环境,基础环境搭建地址hadoop2.7.7 分布式集群安装与配置 本篇博客主要说明,如果搭建spark集群并集成到hadoop 安装流程 安装spark需要先安装scala 注意在安装过程中需要对应spark与 ...
分类:
其他好文 时间:
2019-07-24 19:14:56
阅读次数:
88
Spark-submit测试任务提交./spark-submit--keytab/usr/local/noah/basp-dataprocess-log/conf/noah.keytabs--principalnoah@BJ.CTC--classorg.apache.spark.examples.SparkPi--masterlocal[*]../lib/spark-examples-1.6.3.
分类:
其他好文 时间:
2019-07-02 13:29:50
阅读次数:
343
这些天开始慢慢接触大数据的东西,顺手些一下hadoop搭建过程,提供一下自己的经验。 首先,我查了很多博客之后,确定了自己需要安装的hadoop版本2.7.6并找到两个感觉比较好的博客,下面说一下安装过程以及解决问题的方法。 第一步,根据博客https://blog.csdn.net/u012761 ...
分类:
编程语言 时间:
2019-06-14 00:40:45
阅读次数:
225
学习大数据必先学习Hadoop,因为它是目前世界上最流行的分布式数据处理框架、Hadoop是一个用于分布式大数据处理的编程框架 一、Hadoop介绍 1、开源大数据框架2、分布式计算的解决方案3、Hadoop=HDFS(分布式文件系统)+MapReduce(分布式计算) Hadoop的构造模块 Na ...
分类:
其他好文 时间:
2019-06-06 22:57:16
阅读次数:
119
一、组件版本说明 Java JDK:1.8.0_144 spark-2.4.3-bin-hadoop2.7hadoop-2.7.7 scala-2.12.8 hadooponwindows-master Python3.7 注意事项: Spark运行在Java 8 +,Python 2.7 + / ...
1、找到spark安装目录 E:\spackLearn\spark-2.3.3-bin-hadoop2.7\jars 里面放的是spark的所有依赖jar包 2、从idea里面javalib导入即可调用里面的function ...
分类:
编程语言 时间:
2019-06-04 16:14:23
阅读次数:
128
一、Java配置 1、完整路径不能有空格:C:\jdk1.8.0_101 2、配置环境变量:JAVA_HOME 二、Hadoop配置 1、完整路径不能有空格:F:\0002_BigData\Soft\hadoop-2.7.6 2、创建文件夹:data、name、tmp 3、下载winutil,拷贝至 ...
简介: 最近在看hadoop的一些知识,下面搭建一个ha (高可用)的hadoop完整分布式集群: 搭建步骤: 1> 关闭防火墙,禁止设置开机启动: (1) //临时关闭 systemctl stop firewalld (2) //禁止开机启动 systemctl disable firewall ...
分类:
其他好文 时间:
2019-05-29 10:40:37
阅读次数:
120
1.HDFS-HA架构原理介绍 hadoop2.x之后,Clouera提出了QJM/Qurom Journal Manager,这是一个基于Paxos算法实现的HDFS HA方案,它给出了一种较好的解决思路和方案,示意图如下: 1)基本原理就是用2N+1台 JN 存储EditLog,每次写数据操作有 ...
分类:
其他好文 时间:
2019-05-26 16:12:40
阅读次数:
128
一.Hadoop2.x产生背景 1.Hadoop1.x中的HDFS和MapReduce在高可用、扩展性等方面存在问题。 2.HDFS存在的问题 1.NameNode单点故障,难以应用于在线场景。 2.NameNode压力过大,且内存受限,影响扩展性。 3.MapReduce存在的问题 1.JobTr ...
分类:
其他好文 时间:
2019-05-14 18:57:19
阅读次数:
196