备注:此处的hadoop版本是3.1.4 一、配置集群 1.1、配置yarn-site.xml <!-- Reducer获取数据的方式 --> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle ...
分类:
其他好文 时间:
2021-02-02 10:48:15
阅读次数:
0
【消息队列高手课】- 基础篇 消息队列都有哪些选择: RabbitMQ - 特色:Exchange模块,开箱即用 RocketMQ - 特色:低延迟和金融级的稳定性 Kafka - 特色:海量,异步批量,“先攒一波再一起处理” ActiveMQ:队列模型和发布-订阅模型都支持 ZeroMQ Puls ...
分类:
其他好文 时间:
2021-02-02 10:44:45
阅读次数:
0
UDF:用户定义(普通)函数,只对单行数值产生作用;UDF只能实现一进一出的操作。UDF函数自定义实现步骤如下: 定义UDF函数,如计算两个数之和 package com.starzy.udf; import org.apache.hadoop.hive.ql.exec.UDF; public cl ...
分类:
其他好文 时间:
2021-02-01 12:38:19
阅读次数:
0
Hadoop搭建HA遇到的坑 重要报错信息 Zookeeper日志 Cannot open channel to 2 at election address node03/172.17.0.4:3888 java.net.ConnectException: Connection refused (C ...
分类:
其他好文 时间:
2021-02-01 12:17:43
阅读次数:
0
kafka之所以那么快,其中一个很大的原因就是零拷贝(Zero-copy)技术,零拷贝不会kafka的专利,而是操作系统的升级,又比如Netty,也用到了零拷贝。 传统IO kafka的数据是要落入磁盘的,那么必然牵扯到磁盘的IO,传统磁盘IO又叫做缓存IO,效率是很低的,那么为什么效率低下呢?我们 ...
分类:
其他好文 时间:
2021-02-01 11:58:41
阅读次数:
0
什么是限流器? 限流器是一种限制某种操作在一定时间内的执行次数(例如每秒钟5次)或者执行量(例如每秒钟1G大小的数据)的机制。 限流器是一种防御性的编程实现方式,在大数据量高并发访问时,经常会出现服务或接口面对暴涨的请求而不可用的情况,甚至引发连锁反映导致整个系统崩溃。此时你需要使用的技术手段之一就 ...
分类:
其他好文 时间:
2021-01-30 12:19:16
阅读次数:
0
#kafka ##1.kafka基础架构 Kafka是一个分布式的基于发布/订阅模式的消息队列,主要应用于大数据实时处理领域。 消息生产者(发布)将消息发布到topic中,同时有多个消息消费者(订阅)消费该消息。和点对点方式不同,发布到topic的消息会被所有订阅者消费。 (1)Producer : ...
分类:
其他好文 时间:
2021-01-30 12:13:24
阅读次数:
0
ZooKeeper是什么 就像冯巩每次出场都说:“亲爱的观众朋友们,我想死你们啦”一样,我再哔哔一次,学习大数据官网很重要。Zookeeper官网看这里ZooKeeper ZooKeeper 是一个开源的分布式协调服务,它本身也是分布式设计。它提供了一组简单的原语,基于这些指令,分布式应用能够实现同 ...
分类:
其他好文 时间:
2021-01-30 12:04:59
阅读次数:
0
ActiveMQ是Apache软件基金会所研发开源的消息中间件,为应用程序提供高效的、可扩展的、稳定的和安全的企业级消息通信。 现在的消息队列有不少,RabbitMQ、Kafka、RocketMQ,ZeroMQ等等,而ActiveMQ作为拥有十多年历史的产品,有着许许多多的成功案例,活跃的社区,让它 ...
分类:
其他好文 时间:
2021-01-29 12:02:36
阅读次数:
0
报错如下: 导致上述错误的原因有很多,下面列出常见错误 1.调整连接超时时间 zookeeper.connection.timeout.ms=6000 连接超时更新60000,即60秒,默认是6秒。 2.kafka配置文件中的zookeeper连接的ip或者端口配置错误 zookeeper.conn ...
分类:
其他好文 时间:
2021-01-29 11:59:37
阅读次数:
0