1、传输jdk和Hadoop压缩包 2、解压jdk和hadoop压缩包 3、配置jdk环境和hadoop环境并生效 4、单机模式配置hadoop -env.sh:本地模式没有HDFS和Yarn,配置JDK后MapReduce能够运行java程序。 5、Hadoop伪分布式模式配置 一、5个配置文件 ...
分类:
其他好文 时间:
2019-05-26 17:51:23
阅读次数:
140
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点 ...
分类:
其他好文 时间:
2019-05-26 17:36:54
阅读次数:
140
1.HDFS-HA架构原理介绍 hadoop2.x之后,Clouera提出了QJM/Qurom Journal Manager,这是一个基于Paxos算法实现的HDFS HA方案,它给出了一种较好的解决思路和方案,示意图如下: 1)基本原理就是用2N+1台 JN 存储EditLog,每次写数据操作有 ...
分类:
其他好文 时间:
2019-05-26 16:12:40
阅读次数:
128
数据集导入HDFS 通过命令行访问刚刚上传至HDFS的数据集 MapReduce程序编译及运行: 第一步:在 Map 阶段,提取气象站和气温数据 第二步:在 Reduce 阶段,统计每个气象站的平均气温 第三步:对代码进行单元测试及debug调试。 Mapper单元测试 Mapper 的逻辑就是从读 ...
分类:
其他好文 时间:
2019-05-26 09:47:51
阅读次数:
192
数据集导入HDFS 通过命令行访问刚刚上传至HDFS的数据集 MapReduce程序编译及运行: 第一步:在 Map 阶段,对每个word(单词)按字母进行排序生成sortedWord,然后输出key/value键值对(sortedWord,word)。 第二步:在 Reduce 阶段,统计出每组相 ...
分类:
其他好文 时间:
2019-05-26 09:35:44
阅读次数:
111
库操作 1、创建库 语法结构 CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name [COMMENT database_comment] //关于数据块的描述 [LOCATION hdfs_path] //指定数据库在HDFS上的存储位置 [W ...
分类:
其他好文 时间:
2019-05-24 10:55:01
阅读次数:
92
一、数据类型 1、基本数据类型 Hive 支持关系型数据中大多数基本数据类型 类型描述示例 boolean true/false TRUE tinyint 1字节的有符号整数 -128~127 1Y smallint 2个字节的有符号整数,-32768~32767 1S int 4个字节的带符号整数 ...
分类:
数据库 时间:
2019-05-24 10:31:19
阅读次数:
129
1、ClouderaManager包含内部机架感知脚本,但您必须指定群集中主机所在的机架。如果您的群集包含10个以上的主机,Cloudera建议您为每个主机指定机架。HDFS,MapReduce和YARN将自动使用您指定的机架。https://www.cloudera.com/documentation/enterprise/5-13-x/topics/cm_mc_specify_rack.htm
分类:
其他好文 时间:
2019-05-23 23:03:26
阅读次数:
210
第一步:数据集导入HDFS 使用命令行访问刚刚上传至HDFS的数据集 第一步:在 Map 阶段,提取气象站和气温数据。 第二步:在 Reduce 阶段,统计每个气象站的平均气温。 第三步:对代码进行单元测试及debug调试 第四步:将项目编译和打包为Temperature.jar,使用客户端将 Te ...
分类:
其他好文 时间:
2019-05-23 21:01:35
阅读次数:
137
hadoop相关子系统: Apache Hadoop是Apache的一个分布式计算开源框架,提供了一个分布式文件系统子项目(HDFS)和支持MapReduce分布式计算的软件架构 那什么是MapReduce呢? 举例来说,统计一系列的文档中的词汇。文档数量规模很大,有1000万个文档,英文单词的总数 ...
分类:
其他好文 时间:
2019-05-22 11:02:14
阅读次数:
90