前两天我们遇到了严重的服务器问题,在多活架构的帮助下没有对业务造成太大影响,以下是这次事故的过程记录。
9月17日
凌晨 00:20 左右,收到了监控系统的报警提示主服务器失去连接,随即切换业务至前两天刚搭建好的多活节点,开始排查问题。
凌晨 00:25,由于无法通过 SSH 登录服务器,随即通过 VNC 登录,发现大量 IO 报错。
凌晨 00:30,研究认为对数据影响可控后尝试强制重启服务器,重启后发现无法引导系统。
凌晨 00:58,通过挂载安装盘检查,确认服务器 SSD 系统盘故障(致态 SC001 240G,使用不到 5 个月)。评估认为目前多活下对业务影响不大,决定等白天再做处理。
上午11:40,机房反馈确认该 SSD 故障,由于没有多余备件,随即购买了一块新 SSD(三星 870 Evo 250G)加急送往机房。
9月18日
下午17:20,SSD 到货,通知机房安装新 SSD。
晚上 22:00 左右,新 SSD 安装完毕,开始重做系统和安装环境,由于涉及哈希表重新生成,预计需要几个小时才能全部完成。
晚上 23:55,WePublish 平台恢复。
9月19日
凌晨 1:38,环境准备完成。
凌晨 2:00,部署完成,所有业务均恢复至主服务器。