事故

日期:2025.01.21

结果:服务器程序、数据丢失,无法找回

起因

我新入职这家公司(走四方),然后在入职第11天的时候

老板让开会沟通一个部署在亚马逊云服务器上的网站

开会时,此网站已经无法访问,页面显示证书过期

然后我使用http访问时,显示了一些MySQL连接相关报错(大意就是MySQL无法连接,超时之类)

老板手里没有服务器的相关登录账号、密码、密钥

需要我去找回,并修复这个网站的问题

初步判断

根据上面描述的错误情况,我确认这个域名www.sunmistfruit.com使用ping命令,是能够连通的

并且https域名过期

怀疑是MySQL服务进程被关闭,或者程序出现内部异常

即,出现的问题:

  1. 证书过期,需要续期
  2. MySQL服务进程关闭,需要重启
  3. 内部不确定是否有异常报错,需要检查日志

缺少登录账号

但是这时候跟老板要账号,发现老板也没有相关账号

所以需要自己上亚马逊云平台上,重置密码

不熟悉亚马逊云平台操作流程

但是,有一个很关键的点:

我之前从未接触使用过亚马逊云平台

这是造成事故的其中一个原因

我在云平台的帮助平台上进行了多次检索,并没有直接找到“重置服务器root密码”相关字眼

老板账号下也找了云平台的AI客服,客服其实已经给到了解决方案,但这时候我并没有看出来

重置步骤

重置步骤

一方面是我英语水平不过关

另一方面是当时并没有认为这里描述的内容跟我的实际问题有关

帮助文档过期

网上能搜索到的帮助文档,都说有一个“重置按钮”,点击就可以重置了

但我发现这些文档展示的图片,要么显示不出来,要么就跟我实际在后台看到的不一致

说明这些文档都是基于之前旧版亚马逊云的内容来的

【核心问题】使用“重置根卷”方式

这时候我在服务器内,找到有个按钮,显示的内容是“重置根卷”

当时也没细想,就直接按下去了

按下去之后平台没有二次确认,也没有弹出密码输入框

就好像刷新一样,点了就点了

但这时候我发现,网站访问的那个报错没有了

甚至这时候网站的80端口都没有在监听

说明此时服务器上的磁盘已经重置了,恢复到了系统安装后的状态

试图恢复

事故发生后,我第一时间想到了快照恢复

但是,里面几个磁盘都没有这个服务器的快照,一个都没有

然后想到本地备份

问老板,也是什么都没有

反思

总结原因

  1. 没有在正式动手之前,做好备份工作(未虑胜,先虑败)
  2. 对一个不熟悉的东西进行操作,没有做再三确认就动手

欢迎关注拓行公众号,分享各种技术博客文章

拓行——奋勇进取,开拓未来,砥砺前行

最后修改:2025 年 04 月 11 日
如果您对各种技术博客文章感兴趣,欢迎关注拓行公众号,分享各种专业技术知识~