配置文件被改过没人知道,故障复盘就少了一段关键证据
· 阅读需 8 分钟
发布负责人小周是在复盘会上被问住的。
接口超时发生在发布后十几分钟。监控曲线有,错误日志也有,应用到数据库的依赖关系也能查到。所有材料看起来都在指向同一个方向:连接不稳定。
直到业务接口人问了一句:“故障发生前,连接池配置是不是刚调过?”
会议室安静了几秒。
有人翻发布记录,有人翻群消息,有人登录机器看当前文件。可当前文件只能证明“现在是什么样”,不能证明“当时是什么样”。真正卡住复盘的,不是没人看日志,而是没人能拿出配置文件在故障前后的版本和差异。
复盘最怕的不是线索少,而是线索到了配置层突然断掉。