夜里该跑的巡检和清理,怎么总在交接班后断档?
· 阅读需 9 分钟
月末第一天早上,运维群里最让人发紧的一句,不是“昨晚有没有告警”,而是:
“那轮夜间巡检到底谁跑了?结果现在谁能说清楚?”
主角是平台运维同学老赵。前一晚交接班前,他还在群里补过一句:夜里记得跑一轮磁盘巡检,顺手把几台业务机上的旧日志清掉,再把几个关键服务状态过一遍。话刚发完,新的告警进来;临时排障一插进来,这轮原本人人都觉得“不难、等会儿就能做”的动作,就这么一路往后顺延。
到了第二天,真正让现场翻面的,不是命令没人会写,也不是脚本完全不存在,而是大家突然发现,谁都没法把昨晚那轮动作一口气讲完整。
到底是谁真正接过去跑了? 这次巡检和清理,昨晚到底打到了哪一批机器? 跑完以后,是正常结束了,还是中间已经有节点报错?群里并不安静。有人说“这个我昨晚好像跑过”,也有人说“清理动作应该做了,只是没回结果”。可越是这种听起来都像做过一点的现场,越容易把人拖住。因为你会很快发现,大家争的已经不是“会不会做”,而是“这轮动作到底有没有被完整接住”。
很多团队第一次真正意识到服务器例行维护会失控,往往也不是在脚本写不出来的时候,而是在这种动作明明该做、结果却没人能确认的瞬间。