功能介绍
日志系统围绕「集成、搜索、分析、事件」四大模块组织能力。下面按产品核心导航逐项介绍当前版本的核心定位与核心能力。
1. 日志采集与集成 (Integration)
集成模块负责日志接入的全生命周期管理,帮助用户从“选择采集类型”走到“接入实例可检索”。
- 采集类型浏览:支持按分类浏览日志集成类型,并通过关键字搜索快速找到目标接入场景。底层采集器以 Vector(文件、Docker、Syslog、Kubernetes 等)与 Snmptrapd(SNMP Trap)为主,采集与接收的日志统一汇入 VictoriaLogs。
- 接入配置与说明联动:支持进入配置页与接入说明页。不同采集类型提供对应的参数配置、专用接入指引或 Kubernetes 安装命令生成能力。
- 实例生命周期管理:支持查看已接入实例列表,执行编辑、批量删除、配置更新、查看日志与组织绑定等操作。
- 日志分组管理:支持创建、查询、更新、删除日志分组,并通过 AND / OR 规则定义日志归属范围。系统同时提供默认日志分组覆盖全量日志场景。
2. 日志检索与展示 (Search)
搜索模块是故障排查的主工作台,围绕统一搜索上下文提供趋势、明细和实时观察能力。
- 统一检索上下文:支持按日志分组、时间范围和查询表达式执行搜索,并在同一上下文下查看趋势直方图、日志明细与实时 tail。
- 字段辅助构建查询:支持字段名、字段值候选与字段 Top 值分布查询,帮助用户快速发现高频字段值,并将字段或字段值直接追加回查询表达式。
- 结果展示与字段选择:支持自定义结果展示字段、展开查看完整日志明细,并在搜索结果中继续补充查询条件。
- 搜索条件复用:支持保存、加载、删除搜索条件。搜索条件记录创建人,并按当前组织范围隔离与复用。
3. 分组规则与隔离 (Grouping)
日志分组和权限控制共同保证“查得快”与“看得准”。
- 规则式日志归组:支持通过字段和值条件建立日志分组,按业务、环境或用途划定搜索和策略作用范围。
- 默认分组兜底:系统提供默认日志分组用于全量日志口径;当默认分组与其他分组同时被选择时,以默认分组优先。
- 组织与实例双重约束:日志分组、接入实例、策略、告警和搜索条件均受组织权限与实例权限控制,非授权数据不可见、不可改。
4. 日志事件策略与分析仪 (Events & Analysis)
分析与事件模块负责把“事后排查”进一步推进到“持续观察”和“主动发现”。
- 内置仪表盘分析:日志分析页提供内置仪表盘查看能力,支持按日志分组、时间范围与刷新频率查看预置图表和表格。
- 双类型策略管理:支持创建、编辑、删除、查询与启停策略,并覆盖关键字告警与聚合告警两类场景。
- 告警列表与统计:支持查看活跃告警与历史告警列表,并通过统计能力观察当前态势。
- 事件追溯与关闭闭环:支持查看告警详情、最近原始日志、事件时间线与单事件原始日志,并在关闭告警后记录关闭操作人。
4.1 告警能力增强
- 动态告警名称:策略的告警名称支持
${字段名}占位符语法,系统在告警产生时自动将占位符替换为命中分组的实际字段值,并在告警列表与告警详情中展示渲染后的名称,便于在多分组场景下快速识别告警来源。 - 关键字告警按分组拆分:关键字告警策略支持配置分组字段(group_by),开启后系统会按各分组字段值分别独立判断是否超阈值,并为每个命中分组单独产生一条告警,同时各自保留对应分组的事件日志样本,避免多个实体命中时合并到单一告警而掩盖细节。
- 通知 at-least-once 可靠性:告警通知采用 at-least-once 语义。首次发送时若遇通道瞬时故障会在本次扫描内自动内联重试;仍未成功的事件由周期补偿任务自动回扫并补发,默认覆盖近 24 小时内未成功通知的事件,避免通道瞬时故障导致告警漏通知。
- 通知去重:同一活跃告警在级别未发生变化期间不重复发送通知;当告警级别升级或降级时系统自动重置通知状态并触发一次新通知,在保证可靠性的同时避免持续命中造成的通知风暴。
- 原始日志快照上限:单条告警累计保留最新 500 条原始日志快照,超出后自动丢弃最旧记录,在长时间持续告警场景下控制存储占用,同时保留最具参考价值的近期样本。