问题描述 2020年7月13日一大早收到告警,测试环境数据库CPU告警。 登录aws查看监控如下图 问题分析 出现这种cpu 100%的问题,都是因为sql性能问题导致的, 主要表现于 cpu 消耗过大,有慢sql造成、慢sql全表扫描,扫描数据库过大,内存排序,队列等等 并发现写入相对于查询来说比 ...
分类:
数据库 时间:
2020-07-14 13:09:21
阅读次数:
81
一.简述 通过TICK(Telegraf+Influxdb+Chronograf+Kapacitor)进行主机性能监控告警,职责描述如下: Telegraf的职能是数据采集,用于主机性能数据,包括主机CPU、内存、IO、进程状态、服务状态等 Influxdb的职能是时序数据库,用于存储Telegra ...
分类:
数据库 时间:
2020-07-13 15:22:57
阅读次数:
138
hadoop生产环境的使用是很复杂的,有些公司是CDH或者Ambari等管理工具运维的,有些是原生的集群俗称裸奔,前者优缺点是运维,查看监控等容易,对于底层理解不友好;裸奔集群反之,裸奔集群的很多东西都需要定制和自己开发,比如监控用zabbix,告警用企业微信,节点的异构严重的,需要二次开发配置文件 ...
分类:
其他好文 时间:
2020-07-13 13:17:45
阅读次数:
65
zabbix--远程执行命令 一、zabbix 远程执行命令 重启应用 服务器 使用远程执行命令可以在某些时候帮我们做一些事情,达到轻量级的自动化,比如当 nginx、mysql、php、redis、tomcat、等等应用挂掉时帮我们自动重启并告警。再比如当磁盘空间满了,自动帮我们清理垃圾日志文件等 ...
分类:
其他好文 时间:
2020-07-13 11:17:07
阅读次数:
95
前几天HBase出现了RIT告警,忽然发现发出告警的Region所属的表并不是我创建出来的,于是就想看看这些表是怎么来的。 一时也没什么头绪,就先看看这些表是什么时候创建出来的吧,然后再根据时间点看看有谁操作了数据库。 那么怎么看表的创建时间呢?desc看一下,也没有这个属性啊。再细想呢,hbase ...
分类:
其他好文 时间:
2020-07-10 15:14:17
阅读次数:
168
Lepus是一套开源的数据库监控平台,目前已经支持MySQL、Oracle、SQLServer、MongoDB、Redis等数据库的基本监控和告警(MySQL已经支持复制监控、慢查询分析和定向推送等高级功能)。Lepus无需在每台数据库服务器部署脚本或Agent,只需要在数据库创建授权帐号后,即可进行远程监控,适合监控数据库服务器较多的公司和监控云中数据库,这将为企业大大减化监控部署流程,同时Le
分类:
数据库 时间:
2020-07-10 10:06:33
阅读次数:
110
告警分析分类: 规则类告警分析 情报类告警分析 日志hunting分析 报告编写 1.规则类告警分析: mimikatz攻击 检测到后需要分析执行命令,是否存在以上特定参数,若有则属实。 powershell无文件攻击 Powershell.exe可以从网络下载脚本内容并在内存中执行。 本地磁盘不会 ...
分类:
其他好文 时间:
2020-07-05 17:12:28
阅读次数:
143
AWS云上混沌工程实践之启动篇 工程师团队最不愿碰到的便是大半夜被电话叫醒,开始紧张地查验问题,处理故障以及恢复服务。也许就是因为睡前的一个很小的变更,因某种未预料到的场景,引起蝴蝶效应,导致大面积的系统混乱、故障和服务中断,对客户的业务造成影响。特别是近几年,尽管有充分的监控告警和故障处理流程,这 ...
分类:
其他好文 时间:
2020-07-05 15:14:15
阅读次数:
88
在办公环境中,经常会访问某些https的内网URL,但是内网中又没有ca机构,很多时候都会提示证书不匹配。出现这类问题,下面上解决办法。 打开某网页如下: 第一步先点击继续浏览此网站; 第二步:在URL地址栏点击证书错误,然后点击查看证书; 第三步:点击安装证书; 第四步:默认当前用户,直接点击下一 ...
分类:
其他好文 时间:
2020-07-05 10:37:48
阅读次数:
174
1、可跨平台收集不同格式的日志,通过Splunk一个平台,对每天20G的数据,进行收集、管理、实时展示分析。 2、除可实时展示性能、事件等的情况并告警外,还可以通过建立关联,分析告警原因,快速定位故障点。 3、AIX服务器管理员,不用再花大量时间手工做各种报表,通过Splunk轻松制定。 4、Spl ...
分类:
其他好文 时间:
2020-07-04 20:37:07
阅读次数:
85