事故
日期:2025.01.21
结果:服务器程序、数据丢失,无法找回
起因
我新入职这家公司(走四方),然后在入职第11天的时候
老板让开会沟通一个部署在亚马逊云服务器上的网站
开会时,此网站已经无法访问,页面显示证书过期
然后我使用http
访问时,显示了一些MySQL
连接相关报错(大意就是MySQL
无法连接,超时之类)
老板手里没有服务器的相关登录账号、密码、密钥
需要我去找回,并修复这个网站的问题
初步判断
根据上面描述的错误情况,我确认这个域名www.sunmistfruit.com
使用ping
命令,是能够连通的
并且https
域名过期
怀疑是MySQL
服务进程被关闭,或者程序出现内部异常
即,出现的问题:
- 证书过期,需要续期
MySQL
服务进程关闭,需要重启- 内部不确定是否有异常报错,需要检查日志
缺少登录账号
但是这时候跟老板要账号,发现老板也没有相关账号
所以需要自己上亚马逊云平台上,重置密码
不熟悉亚马逊云平台操作流程
但是,有一个很关键的点:
我之前从未接触使用过亚马逊云平台
这是造成事故的其中一个原因
我在云平台的帮助平台上进行了多次检索,并没有直接找到“重置服务器root密码”相关字眼
老板账号下也找了云平台的AI客服,客服其实已经给到了解决方案,但这时候我并没有看出来
一方面是我英语水平不过关
另一方面是当时并没有认为这里描述的内容跟我的实际问题有关
帮助文档过期
网上能搜索到的帮助文档,都说有一个“重置按钮”,点击就可以重置了
但我发现这些文档展示的图片,要么显示不出来,要么就跟我实际在后台看到的不一致
说明这些文档都是基于之前旧版亚马逊云的内容来的
【核心问题】使用“重置根卷”方式
这时候我在服务器内,找到有个按钮,显示的内容是“重置根卷”
当时也没细想,就直接按下去了
按下去之后平台没有二次确认,也没有弹出密码输入框
就好像刷新一样,点了就点了
但这时候我发现,网站访问的那个报错没有了
甚至这时候网站的80端口都没有在监听
说明此时服务器上的磁盘已经重置了,恢复到了系统安装后的状态
试图恢复
事故发生后,我第一时间想到了快照恢复
但是,里面几个磁盘都没有这个服务器的快照,一个都没有
然后想到本地备份
问老板,也是什么都没有
反思
总结原因
- 没有在正式动手之前,做好备份工作(未虑胜,先虑败)
- 对一个不熟悉的东西进行操作,没有做再三确认就动手