KafkaConnect基本概念介绍KafkaConnect是一个用于将数据流输入和输出Kafka的框架。Confluent平台附带了几个内置connector,可以使用这些connector进行关系数据库或HDFS等常用系统到Kafka的数据传输,也是用来构建ETL的一种方案。KafkaConnect基本概念:KafkaConnect实际上是Kafka流式计算的一部分KafkaConnect主要
一、 设计思路 分布式文件系统 二、设计目标 三 HDFS架构图 四、HDFS元数据管理 五、HDFS元数据合并 6、HDFS上传文件 7、HDFS文件读取 注意 八、JAVA API ...
分类:
编程语言 时间:
2020-05-25 17:28:44
阅读次数:
62
hdfs基本特性 hdfs操作命令 hdfs高级命令 文件数量限制以及空间大小限制 安全模式 基准测试 ...
分类:
其他好文 时间:
2020-05-24 16:37:58
阅读次数:
74
1、Hbase集群的高可用性与伸缩性 HBase可以实现对Regionserver的监控,当个别Regionserver不可访问时,将其负责的分区分给其他Regionsever,其转移过程较快,因为只需要将分区的相关信息转移。Hlog和表中数据实际存储在HDFS上,本身具有多副本机制容错。 Mast ...
分类:
其他好文 时间:
2020-05-23 20:00:09
阅读次数:
88
org.apache.hadoop.fs.FileSystem是Hadoop中一个相当通用的文件系统的抽象基类,它是一个面向最终用户的接口类。应该将所有可能使用Hadoop分布式文件系统的用户代码编写为使用一个FileSystem对象。Hadoop DFS是一种多机系统,显示为单个磁盘,由于其容错能 ...
1、presto是什么 Presto是由Facebook开发的一个分布式SQL查询引擎,是专门设计为用来专门进行大数据实时查询计算而设计和开发的产品。 它是为了解决Hive的MapReduce模型太慢以及不能通过BI或Dashboards直接展现HDFS数据等问题。 2、presto特点 prest ...
分类:
其他好文 时间:
2020-05-23 18:05:11
阅读次数:
249
导入数据 导入到 hdfs sqoop import \#--connect jdbc:mysql://hadoop102:3306/$db_name \--connect "jdbc:oracle:thin:@192.156.456.456:1521:SYNTONG" \--username "s ...
分类:
其他好文 时间:
2020-05-21 19:04:25
阅读次数:
40
高可用性的HDFS:Hadoop分布式文件系统深度实践专注于Hadoop分布式文件系统(HDFS)的主流HA解决方案,内容包括:HDFS元数据解析、Hadoop元数据备份方案、Hadoop Backup Node方案、AvatarNode解决方案以及最新的HA解决方案Cloudrea HA Name ...
分类:
其他好文 时间:
2020-05-21 16:29:51
阅读次数:
73
前言 用了这么久的Hive,而没有认真的学习和使用过Hive的分区,现在学习记录一下。 分区表一般在数据量比较大,且有明确的分区字段时使用,这样用分区字段作为查询条件查询效率会比较高。 Hive分区分为静态分区和动态分区 1、建表语句 先用一个有分区字段的分区表进行学习,静态分区和动态分区的建表语句 ...
分类:
其他好文 时间:
2020-05-19 22:46:55
阅读次数:
50
网上看到的关于Executor,Cores和Memory的分配相关博客,先记录下来,再汇总。 <1>第一篇 Spark处理多少数据是否需要多少内存 Spark处理1Tb数据不需要1Tb的内存。 具体需要多少内存是根据executor的core数量和每次读取数据集的block大小决定的。以读取hdfs ...
分类:
其他好文 时间:
2020-05-19 16:47:03
阅读次数:
82