二者对比 1.Hive 数据仓库:本质其实就相当于将hdfs中已经存储的文件在Mysql中做了一个双射关系,以方便用HQL去管理查询。 用于数据分析、清洗:Hive适用于离线的数据分析和清洗,延迟较高。 基于HDFS、MapReduce:Hive存储的数据依旧在DataNode上,编写的HQL语句终 ...
分类:
其他好文 时间:
2020-05-09 01:23:51
阅读次数:
63
一、概述 TDH使用方式和CDH有很大不同,需要先下载客户端,然后source其中的init.sh文件,使之生效,然后才能使用hdfs命令。 二、步骤 1、进入到管理界面,然后下载客户端 2、建立一个个人目录 mkdir /home/demo 然后将下载的客户端放入该目录中,解压客户端文件 sour ...
分类:
其他好文 时间:
2020-05-08 20:14:03
阅读次数:
247
1、参数配置(并行度)分区的默认个数等于对spark.default.parallelism的指定值2、根据父rdd的reduceTask数量3、读取hdfs的文件生成的rddrdd分区的数量等于hdfs的文件的block4、sparkStreaming生成的rdd根据block interval, ...
分类:
其他好文 时间:
2020-05-08 16:12:24
阅读次数:
129
Mysql数据库简介 什么是数据? ? 数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材,数据是信息的表现形式和载体,可以是符号,文字,数字,语音,图像,视频等,数据和信息是不可分离的,数据是信息的表达,信息是数据的内涵,数据本身没有任何意义,数据只 ...
分类:
数据库 时间:
2020-05-06 19:33:35
阅读次数:
78
1)处理超大文件 这里的超大文件通常是指百MB、设置数百TB大小的文件。目前在实际应用中,HDFS已经能用来存储管理PB级的数据了。 2)流式的访问数据 HDFS的设计建立在更多地响应"一次写入、多次读写"任务的基础上。这意味着一个数据集一旦由数据源生成,就会被复制分发到不同的存储节点中,然后响应各 ...
分类:
其他好文 时间:
2020-05-06 14:01:03
阅读次数:
102
1.将下载的hadoop的jar包解压到自己想要存放的目录下,然后再hadoop的根目录下复制它的完整路径 2.配置环境变量,创建一个系统变量“HADOOP_HOME”,变量值就是hadoop的路径 3.将这个变量添加到Path变量中: 4.保存后退出 5.打开cmd命令行窗口,输出命令“hadoo ...
本文源码:GitHub·点这里||GitEE·点这里一、DataX工具简介1、设计理念DataX是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源。当
分类:
其他好文 时间:
2020-05-06 10:30:40
阅读次数:
73
HBase分布式数据库,面向列存储(准确的说是面向列族),支持实时、随机读写。HDFS 为 Hbase 提供可靠的底层数据存储服务,MapReduce 为 Hbase 提供高性能的计算能力,Zookeeper 为 Hbase 提供 稳定服务和Failover机制,因此,Hbase 是一个通过大量廉价 ...
分类:
其他好文 时间:
2020-05-06 01:13:24
阅读次数:
103
文件系统 HDFS Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。 GlusterFS 是一个集群的文件系统,支持PB级的数据量 ...
分类:
其他好文 时间:
2020-05-05 18:09:27
阅读次数:
70
一、简介 Hadoop是使用Java编写,允许分布在集群,使用简单的编程模型的计算机大型数据集处理的Apache的开源框架。 解决的问题: (1)海量数据的存储 [HDFS] (2)海量数据的分析 [MapReduce] (3)资源管理调度 [YARN] 二、hadoop架构 在其核心,Hadoop ...
分类:
其他好文 时间:
2020-05-03 10:26:41
阅读次数:
66