一、windows 安装 1、下载spark spark-2.3.1-bin-hadoop2.7.tgz 2、配置spark 环境变量 set SPARK_HOME=d:\spark2.3.1 set PATH=%SPARK_HOME%\bin;%PATH% 3、安装python的pyspark模块... ...
理解Hadoop2.7.4集群搭建组件: HDFS 海量数据的分布式存储 Map-Reduce 海量数据的分布式计算框架 Yarn 海量数据的资源管理 两个集群 逻辑上分离,物理上常在一起 1、Hdfs 集群 三个角色:Namenode,Datanod,Secondnode 2、Yarn集群 两个 ...
分类:
其他好文 时间:
2018-07-24 17:35:29
阅读次数:
174
一、Eclipse的安装与设置 1.在Eclipse官网上下载eclipse-jee-oxygen-3a-linux-gtk-x86_64.tar.gz文件并将其拷贝到/home/jun/Resources下,然后再将文件拷贝到/home/jun下并解压。 2.执行.eclipse程序即可启动ecl ...
分类:
系统相关 时间:
2018-07-22 17:10:30
阅读次数:
186
前言:该文章是基于 Hadoop2.7.6_01_部署 进行的。 1. Hive基本概念 1.1. 什么是Hive Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 1.2. 为什么使用Hive 直接使用hadoop所面临的问题 人员学 ...
分类:
其他好文 时间:
2018-07-22 11:29:38
阅读次数:
142
下载好hadoop和jdk软件包,传到虚拟机上 第一步:安装jdk并配置环境变量 解压 tar -xvf 配置环境变量 vim /etc/profile 加载配置文件 source /ect/profile 测试 java -version javac -version 第二步:安装hadoop 解 ...
分类:
其他好文 时间:
2018-07-15 21:09:04
阅读次数:
134
最终结果:[hadoop@h41 ~]$ jps12723 ResourceManager12995 Jps12513 NameNode12605 DFSZKFailoverController[hadoop@h42 ~]$ jps12137 ResourceManager12233 Jps1200 ...
分类:
其他好文 时间:
2018-07-15 19:50:52
阅读次数:
211
1.先下载VMware1.2,然后安装。 2.下载ubuntu-1.4.05-desktop-amd64.iso。下载地址:http://mirrors.aliyun.com/ubuntu-releases/14.04.5/ 3.下载hadoop2.7。下载地址:http://archive.apa ...
分类:
其他好文 时间:
2018-07-15 13:46:04
阅读次数:
165
HDFS HA Namenode HA 详解 hadoop2.x 之后,Clouera 提出了 QJM/Qurom Journal Manager,这是一个基于 Paxos 算法(分布式一致性算法)实现的 HDFS HA 方案,它给出了一种较好的解决思路和方案,QJM 主要优势如下: 不需要配置额外 ...
分类:
其他好文 时间:
2018-07-13 21:08:06
阅读次数:
221
1 cd /usr/local/spark/spark-2.3.1-bin-hadoop2.6 2 ./bin/pyspark 3 >>> textFile = spark.read.text("README.md")2018-07-10 09:03:16 WARN ObjectStore:568 ...
分类:
其他好文 时间:
2018-07-10 11:26:21
阅读次数:
151
ApacheAmbari是一种基于Web的工具,支持ApacheHadoop集群的供应、管理和监控。Ambari已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、Hbase、Zookeper、Sqoop和Hcatalog等。ApacheAmbari支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeper、Sqoop和Hcatalog等的集中管
分类:
其他好文 时间:
2018-07-09 12:29:32
阅读次数:
344