1.1 定义 Kafka 是一个分布式的基于发布/订阅模式的消息队列(Message Queue) , 主要应用于大数据实时处理领域 1.2 消息队列 1.2.1 传统消息队列的应用场景 ? 使用消息队列的好处 1) 解耦允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。 2) ...
分类:
其他好文 时间:
2021-03-30 13:07:59
阅读次数:
0
Hadoop集群 第三章 linux虚拟机 jdk 配置 1、查看并卸载主机原有JDK 1)查找并卸载 jdk 相关软件 rpm -qa | grep -i java | xargs -n1 rqm -e --nodeps rpm -qa:查看安装的所有 rpm 软件包 grep -i :忽略大小写 ...
分类:
系统相关 时间:
2021-03-29 12:39:22
阅读次数:
0
1. 集群和分布式: 集群(cluster):即同一个业务系统,部署在堕胎服务器上,集群中,每台服务器实现的功能没有差别,数据和代码都是一样的 集群主要分为三种类型: LB(load balancing):负载均衡,多台主机组成,每个主机只承担一部分请求 HA(high availablity):高 ...
分类:
系统相关 时间:
2021-03-18 14:41:04
阅读次数:
0
前言 接上文,复习整理大数据相关知识点,这章节从MapReduce开始... MapReduce介绍 MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。 Map负责“分”,即把复杂的任务 ...
分类:
其他好文 时间:
2021-03-17 15:09:28
阅读次数:
0
处在数字化时代的浪潮中,相信大家对于“数据”都不会陌生。无论对于企业还是个人,数据已经成为了数字化时代的“石油”。早在几年前马云就曾提出过一个观点——未来将会实现从IT时代向DT时代的变革。而在几年后的今天,我们切实感受到了大数据所带来的滚滚红利。 ? 在享受大数据红利的同时,也同样要注意数据的安全 ...
分类:
其他好文 时间:
2021-03-17 14:23:44
阅读次数:
0
大数据技术板块划分 数据采集 flume kafka logstash filebeat ... 数据存储 mysql redis hbase hdfs ... 虽然mysql不属于大数据范畴 但是我在这也列出来了,因为你在工作中离不开它 数据查询 hive impala elasticsearch ...
分类:
其他好文 时间:
2021-03-17 14:04:41
阅读次数:
0
1、为什么要引入Yarn和Spark。 (1)现有的hadoop生态系统中存在的问题 1)使用mapreduce进行批量离线分析; 2)使用hive进行历史数据的分析; 3)使用hbase进行实时数据的查询; 4)使用storm进行实时的流处理; (2)选用spark的原因 1) 应用于流式计算的S ...
分类:
其他好文 时间:
2021-03-16 13:32:12
阅读次数:
0
1. 阐述Hadoop生态系统中,HDFS, MapReduce, Yarn, Hbase及Spark的相互关系,为什么要引入Yarn和Spark。 HDFS是Hadoop体系中数据存储管理的基础,它是一个高度容错的系统,能检测和应对硬件故障,在低成本的通用硬件上运行。 HBase构建在HDFS之上 ...
分类:
其他好文 时间:
2021-03-16 13:21:18
阅读次数:
0
阿里云实时计算负责人 - 王峰(莫问)/ FFA_2020-Flink as a Unified Engine - Now and Next-V4 2020年Flink 基于Flink 的流批一体数仓 基于Flink流批一体数据湖架构 PyFlink Flink Native on K8S 双链路数 ...
分类:
其他好文 时间:
2021-03-16 11:59:14
阅读次数:
0
以表的操作和单条记录的增删改查为基础。 批量操作,需要进行进一步封装。 import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.*; import org.apache.hadoop.hbase.clie ...
分类:
编程语言 时间:
2021-03-15 11:32:26
阅读次数:
0