平台开发中,欢迎参与测试。你可以在 QQ群: 12370907 中与我们交流,或是直接在 社区发帖

    2023年9月17日凌晨主服务器故障说明

    • 耗子
      楼主
      耗子
      楼主
      耗子
      楼主

      前两天我们遇到了严重的服务器问题,在多活架构的帮助下没有对业务造成太大影响,以下是这次事故的过程记录。

      9月17日

      凌晨 00:20 左右,收到了监控系统的报警提示主服务器失去连接,随即切换业务至前两天刚搭建好的多活节点,开始排查问题。

      凌晨 00:25,由于无法通过 SSH 登录服务器,随即通过 VNC 登录,发现大量 IO 报错。

      凌晨 00:30,研究认为对数据影响可控后尝试强制重启服务器,重启后发现无法引导系统。

      凌晨 00:58,通过挂载安装盘检查,确认服务器 SSD 系统盘故障(致态 SC001 240G,使用不到 5 个月)。评估认为目前多活下对业务影响不大,决定等白天再做处理。

      上午11:40,机房反馈确认该 SSD 故障,由于没有多余备件,随即购买了一块新 SSD(三星 870 Evo 250G)加急送往机房。

      9月18日

      下午17:20,SSD 到货,通知机房安装新 SSD。

      晚上 22:00 左右,新 SSD 安装完毕,开始重做系统和安装环境,由于涉及哈希表重新生成,预计需要几个小时才能全部完成。

      晚上 23:55,WePublish 平台恢复。

      9月19日

      凌晨 1:38,环境准备完成。

      凌晨 2:00,部署完成,所有业务均恢复至主服务器。

正在查看 0 条回复
  • 哎呀,回复话题必需登录。

加入 WePublish 社区论坛,参与知识分享与交流
登录进行评论