什么是Hive ? Hive是构建在hadoop HDFS上的一个数据仓库; Hive的表/数据 就是HDFS中目录/文件 数据仓库: 是一个面向主题的、集合的、不可更新的、随时间不变化的数据集合; 主要是用于支持企业或组织的决策分析处理 数据仓库的结构和建立过程 抽取E:把数据源的数据按照一定的方 ...
分类:
其他好文 时间:
2019-09-02 12:17:54
阅读次数:
81
一、HDFS 的设计思路 1)思路 切分数据,并进行多副本存储; 2)如果文件只以多副本进行存储,而不进行切分,会有什么问题 缺点 缺点 二、HDFS 的设计目标 Hadoop Distributed File System(HDFS):源于Google 的 GFS 论文; 设计目标 设计目标 三、 ...
分类:
其他好文 时间:
2019-09-02 10:05:10
阅读次数:
294
日志采集框架Flume Flume介绍 概述 Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 Flume可以采集文件,socket数据包、文件、文件夹、kafka等各种形式源数据,又可以将采集到的数据(下沉sink)输出到HDFS、hbase、hive、kafka等众多外部 ...
分类:
Web程序 时间:
2019-09-02 09:35:39
阅读次数:
86
1、大数据流程图 2、大数据各个环节主要技术 2.1、数据处理主要技术 Sqoop:(发音:skup)作为一款开源的离线数据传输工具,主要用于Hadoop(Hive) 与传统数据库(MySql,PostgreSQL)间的数据传递。它可以将一个关系数据库中数据导入Hadoop的HDFS中, 也可以将H ...
分类:
其他好文 时间:
2019-09-02 09:22:58
阅读次数:
144
1. hbase是什么 1.1 hbase的概念 hbase基于Google的BigTable论文,是建立的hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时读写的分布式数据库系统。在需要实时读写随机访问超大规模数据集时,可以使用hbase。 hbase基于Google的BigTable论文, ...
分类:
其他好文 时间:
2019-09-01 22:03:48
阅读次数:
78
一、windows上传文件到 linux的hdfs 1、先在 centos 上开启 hdfs, 用 jps 可以看到下面信息, 说明完成开启 2、在win上配置 hadoop (https://www.cnblogs.com/Jomini/p/11432484.html) 后, 要在 hadoop ...
需要创建大量hdfs目录的原因:配置canal拿取mysql的binlog日志上传到hdfs目录。每一张表都需要一个hdfs目录,因此需要创建很多。 正常创建目录都是使用 hadoop fs -mkdir -p /aa/bb/01 少数目录可以这么创建,但是目录过多创建就会很慢,因为创建一个目录就需 ...
分类:
其他好文 时间:
2019-08-30 18:48:07
阅读次数:
73
sqoop安装:安装在一台节点上就可以了。 1.安装和配置 在添加sqoop到环境变量 将数据库连接驱动拷贝到$SQOOP_HOME/lib里 2.使用 第一类:数据库中的数据导入到HDFS上 指定输出路径、指定数据分隔符 指定Map数量 -m 增加where条件, 注意:条件必须用引号引起来 增加 ...
分类:
其他好文 时间:
2019-08-30 16:03:55
阅读次数:
113
1.官网下载hbase安装包 这里不做赘述。 2.解压 直接tar -zxvf xxxx 3.配置hbase集群,要修改3个文件(首先zk集群已经安装好了) 注意:要把hadoop的hdfs-site.xml和core-site.xml 放到hbase/conf下 3.1修改hbase-env.sh ...
分类:
其他好文 时间:
2019-08-30 16:01:08
阅读次数:
80
大数据学习路线分享Hadoop阶段的高可用配置,什么是Hadoop的HA机制 Ha机制即Hadoop的高可用(7*24小时不中断服务) 正式引入HA机制是从hadoop2.0开始,之前的版本中没有HA机制 hadoop-ha严格来说应该分成各个组件的HA机制——HDFS的HA、YARN的HAHDFS的HA机制详解HDFS的HA主要是通过双namenode协调工作实现双namenode协调
分类:
其他好文 时间:
2019-08-28 23:57:40
阅读次数:
186