码迷,mamicode.com
首页 > 其他好文 > 详细

orchestrator raft leader频繁变化问题

时间:2020-07-05 00:38:51      阅读:87      评论:0      收藏:0      [点我收藏+]

标签:github   机器   系统   第一个   抓包   增加   过程   使用   为什么   

最近在使用orchestrator的过程中,遭遇了严重的问题。
最初上线的几个月里,raft leader非常稳定。
但随着时间的推移,raft leader 频繁变化的问题就爆发了。

leader的变化,直接原因,就是leader没有按时发送heartbeat,从而触发了选举机制。

第一个怀疑的原因,就是网络抖动,出现丢包。但是,通过查看监控数据,发现没有丢包迹象。接着,通过tcpdump抓包,也证实没有数据丢失。

第二个怀疑的是,raft的代码实现有问题。查看github仓库,已经很长时间没有release了。翻看issue,找到2个相似的,但这些issue没有追查询下去,最后没有什么具体结论就关闭了。

第三个怀疑的是,系统负载和内存使用。
从监控数据看,16核机器,负载在1左右徘徊。16G内存,空闲率在30%-50%,偶尔某台机器低于10%。
从这些数据看,无法确切判定,就是机器资源耗尽导致的。

接着使用pprof查看goroutine、内存情况,并抓trace,发现snapshot操作出现大量堆积,多的时候有9000+goroutine。
在内存使用上,snapshot也是消耗最多的。
由于频繁申请大量内存,GC次数和耗时出现严重增加。
这样,就影响了goroutine的调度,尤其是对时间敏感的goroutine,例如hearbeat,导致其发送时间延后。

关于snapshot的为什么消耗内存,下次再具体介绍。

orchestrator raft leader频繁变化问题

标签:github   机器   系统   第一个   抓包   增加   过程   使用   为什么   

原文地址:https://www.cnblogs.com/lanyangsh/p/13237193.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!