记录一个哨兵节点挂掉后的处理流程

刚刚运维同事收到了告警系统自定义的电话告警, 然后马上通知到了的团队.
运维同事判断是AWS的机器故障跟服务软件本身没有关系

相关的告警dashboard也出现了相应的缺失

因为目前两个哨兵中, sentry2出现问题, sentry1工作正常, 节点出块情况正常.

因此处理流程也比较简单, 重启AWS的机器,

  1. 机器本身绑定了EIP所以IP不会发生变化, 重启后不需要修改配置文件
  2. cetd本身配置为系统服务, 机器重启后进程会重新拉起

大约两分钟后, 服务的监控正常. 登陆到sentry2上查看网络连接情况正常.

处理完毕.