实时数据 →文件系统(Linux文件系统、HDFS等) →Hive 导入到hive,Load。(转成相应的hive表,导入后可直接使用HiveSQL查询) hive的内容分两部分:元数据、数据。 其中数据是存在HDFS中,元数据存在mysql中。 Hive数据仓库 Hive/mysql/HDFS关系 ...
分类:
其他好文 时间:
2021-04-26 13:27:01
阅读次数:
0
什么是mycat 1、一个彻底开源的,面向企业应用开发的大数据库集群 2、支持事务、ACID、可以替代MySQL的加强版数据库 3、一个可以视为MySQL集群的企业级数据库,用来替代昂贵的Oracle集群 4、一个融合内存缓存技术、NoSQL技术、HDFS大数据的新型SQL Server 5、结合传 ...
分类:
数据库 时间:
2021-04-24 13:26:20
阅读次数:
0
参考博客:linux下ElasticSearch.6.2.2集群安装与head、Kibana、X-Pack..插件的配置安装 参考博客:ELK5.5.1 插件安装实践纪要(head/bigdesk/kopf/cerebo/中文分词插件) 参考博客:ELK构建MySQL慢日志收集平台详解 参考博客:针 ...
分类:
其他好文 时间:
2021-04-14 12:42:49
阅读次数:
0
HDFS缓存 集中式缓存管理,由Datanode堆外内存组成,Namenode统一管理 优点: 阻止频繁使用的数据从内存中删除 由于是Namenode统一管理,因此在读可以根据情况调度,提高读性能 客户端可以通过零拷贝技术直接读取缓存数据 提高集群内存利用率,读某个文件的时候会将 解决步骤 查看是否 ...
分类:
其他好文 时间:
2021-04-14 12:00:19
阅读次数:
0
sentry缺点: 1、组件只支持hive、hdfs、impala 不支持hbase,stome等 show roles; create role admin_zr; 0: jdbc:hive2://cbp5.chinaoly.com:10000/> grant all on server serv ...
分类:
其他好文 时间:
2021-04-06 14:49:20
阅读次数:
0
学习过得技术 HDFS YARN MR HIVE HBASE SPARK SPARK(sparkCore、sparkSql、sparkStreaming) HDFS 数据库管理、 存磁盘 Ha模式(在zookeeper之上) 联邦机制(把大象装进冰箱) split切片 Hbase 列式数据库 半结构 ...
分类:
其他好文 时间:
2021-04-05 12:37:34
阅读次数:
0
hdfs会为每一个用户创建一个回收站目录:/usr用户名/.Trash/,每一个用户在Shell命令行删除的文件/目录,会进入到对应的回收站目录中,在回收站中的数据都有一个生命周期,也就是说当回收站中的文件/目录在一段时间之内没有被用户恢复的话,HDFS就会自动将这个文件/目录彻底删除。 默认情况下 ...
分类:
其他好文 时间:
2021-04-05 12:30:22
阅读次数:
0
import contextlib import pyhdfs class HdfsUtil(object): def __init__(self, hosts='namenode1:9870,namenode2:9870', user_name='hdfs'): self.hosts = host ...
分类:
编程语言 时间:
2021-03-30 13:29:22
阅读次数:
0
大数据技术板块划分 数据采集 flume kafka logstash filebeat ... 数据存储 mysql redis hbase hdfs ... 虽然mysql不属于大数据范畴 但是我在这也列出来了,因为你在工作中离不开它 数据查询 hive impala elasticsearch ...
分类:
其他好文 时间:
2021-03-17 14:04:41
阅读次数:
0
1. 阐述Hadoop生态系统中,HDFS, MapReduce, Yarn, Hbase及Spark的相互关系,为什么要引入Yarn和Spark。 HDFS是Hadoop体系中数据存储管理的基础,它是一个高度容错的系统,能检测和应对硬件故障,在低成本的通用硬件上运行。 HBase构建在HDFS之上 ...
分类:
其他好文 时间:
2021-03-16 13:21:18
阅读次数:
0