跳到主要内容

2 篇博文 含有标签「配置管理」

查看所有标签

配置文件被改过没人知道,故障复盘就少了一段关键证据

· 阅读需 8 分钟

发布负责人小周是在复盘会上被问住的。

接口超时发生在发布后十几分钟。监控曲线有,错误日志也有,应用到数据库的依赖关系也能查到。所有材料看起来都在指向同一个方向:连接不稳定。

直到业务接口人问了一句:“故障发生前,连接池配置是不是刚调过?”

会议室安静了几秒。

有人翻发布记录,有人翻群消息,有人登录机器看当前文件。可当前文件只能证明“现在是什么样”,不能证明“当时是什么样”。真正卡住复盘的,不是没人看日志,而是没人能拿出配置文件在故障前后的版本和差异。

复盘最怕的不是线索少,而是线索到了配置层突然断掉。

CMDB 失真,往往不是录入问题

· 阅读需 7 分钟

晨会前,最难回答的不是有没有资产

晨会前二十分钟,运维负责人被追问一件事:昨天那次抖动,到底是应用自己有问题,还是底层资源刚改过?

群里已经有人甩出了几张截图。有人说数据库实例前一晚做过调整,有人说服务其实早就迁过节点,还有人坚持配置没变。CMDB 里并不是没有这批资产,相关实例、关系和负责人也都能查到,但没有人愿意直接拿那份数据下结论。

让人头疼的,不是 CMDB 里查不到对象,而是查到了以后,没人敢保证它还是当前状态。信息开始过期以后,CMDB 会从排障入口退回成参考资料。