故障复盘为什么总拼不出现场
· 阅读需 11 分钟
开场:晨会前那张拼不完整的图
晨会前 20 分钟,运维负责人小周被问住了。
昨天下午发布后,支付回调服务抖动了十几分钟。故障已经恢复,业务侧也确认交易补偿完成,但复盘材料迟迟拼不成一张完整图。
监控同学给了接口延迟曲线。
研发同学贴了几段带请求 ID 的错误日志。
CMDB 里能查到支付回调、缓存、数据库和下游账务服务的关系。
告警列表里也有触发、认领和恢复时间。
材料看起来很全。可复盘主持人追问了一句:
“这次到底是哪个点先异常?影响范围是一个实例、一条服务链,还是整段支付链路?”
会议室安静了几秒。
不是没人有数据,而是每个人手里都只有一块碎片。小周能解释其中任意一张截图,却很难把这些截图串成一个连续现场。
这就是很多故障复盘最难受的地方:证据都在,现场不在。