发现最近很多人关注CDH版本更新的问题,CDH6更新有一年多的时间了,2019年2月19日,迭代的版本为CDH6.1.1,现在CDH最新的版本已经到CDH6.3.3了。为了方便比较,本文内容主要基于CDH5.16.1和CDH6.1.1进行说明。
分类:
其他好文 时间:
2020-03-10 23:36:12
阅读次数:
95
数据操作 加载数据 LOAD DATA 加载数据 LOCAL 本地数据,不加LOCAL就是分布式文件系统数据 OVERWRITE表示覆盖表中已有数据,否则表示追加 通过查询语言插入数据 这里使用了OVERWRITE关键字,之前分区内容会被覆盖掉。这是一次插入。 以下为多次插入,对多个分区目录插入数据 ...
分类:
其他好文 时间:
2020-03-10 12:11:23
阅读次数:
88
HDFS的热备份 其实现原理就是在联邦HDFS下,每两个NameNode形成一组。这组NameNode一个状态为Active一个状态为StandBy,通过ZooKeeper进行管理。 Active和StandBy之间可以进行通信。当其中Active的NameNode出故障的时候。会通过ssh或者sh ...
分类:
其他好文 时间:
2020-03-04 09:41:47
阅读次数:
74
1. 概述 本文以淘宝作为例子,介绍从一百个并发到千万级并发情况下服务端的架构的演进过程,同时列举出每个演进阶段会遇到的相关技术,让大家对架构的演进有一个整体的认知,文章最后汇总了一些架构设计的原则。欢迎扫一扫 2. 基本概念 在介绍架构之前,为了避免部分读者对架构设计中的一些概念不了解,下面对几个 ...
分类:
Web程序 时间:
2020-02-24 14:53:57
阅读次数:
79
官方讲解: Apache Hadoop 为可靠的,可扩展的分布式计算开发开源软件。Apache Hadoop软件库是一个框架,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集(海量的数据)。 个人理解: Hadoop就是一些模块的相对简称!! 那Hadoop到底指的哪些模块??以及他们是干嘛 ...
分类:
其他好文 时间:
2020-02-15 00:12:46
阅读次数:
135
1、Flume简单介绍 Apache Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 2、Flume体系结构 ...
分类:
Web程序 时间:
2020-02-13 12:37:38
阅读次数:
78
启动hadoop -ls:显示文件夹内容 -put:上传到hdfs上 -cat:显示文件内容 hdfs文件读取成功:三种方式 ...
分类:
系统相关 时间:
2020-02-11 09:38:51
阅读次数:
116
本次记录是用于:SparkStreaming对接Kafka、HBase记录 一、简介 ①HBase本身是一个菲关系型数据库,存储数据结构时以key-value结构来进行存储,HBase中的数据是稀疏的。 ②基于Hadoop运行,但是HBase的效率在秒级别 ③基于列存储:传统行存储方式在查询特定列时 ...
分类:
其他好文 时间:
2020-02-06 16:53:41
阅读次数:
101
今天进行了Spark的安装。 1.1 下载安装包进入Scala下载页面,下拉,找到tgz包 右击,复制链接如下https://downloads.lightbend.com/scala/2.11.12/scala-2.11.12.tgz在master的命令行中输入:wget https://down ...
分类:
其他好文 时间:
2020-02-05 00:00:07
阅读次数:
97
1.spark中partition的概念partition是RDD的最小单元,是盛放文件的盒子,一个文件可能需要多个partition,但是一个partition只能存放一个文件中的内容,partition是spark计算中,生成的数据在计算空间内最小单元,2.fileWriter.flush()f ...
分类:
其他好文 时间:
2020-02-04 20:10:54
阅读次数:
81