功能介绍
1. 监控视图 (View)
监控视图是运维人员的日常核心工作台,实现从“全局资源概览”到“单实例深度指标”的分层可视化,覆盖资源状态查看、指标趋势分析、告警关联的全场景需求。
1.1 全局资源视图(列表/蜂巢)
提供全量运维对象的集中概览,支持切换列表与蜂巢(Hive)视图,快速定位目标资源并查看基础状态(由于类型差异,部分资源如Pod/Node支持蜂巢拓展展示)。
核心能力
- 多维分类导航:左侧支持按「操作系统(主机)、网络(网站/Ping)、数据库(Elasticsearch/MySQL等)、中间件(RabbitMQ/Nginx等)」维度筛选纳管对象,每个分类旁标注资源数量(如“主机(1)”);
- 核心状态概览:列表模式展示资源的「名称、上报时间、上报状态(正常/异常)、CPU使用率、内存使用率」;蜂巢模式通过六边形色块直观呈现集群或节点的密度与状态分布;
- 快捷操作入口:每个资源右侧或悬浮提示中提供「查看实例(弹层)」、「仪表盘详情」按钮,一键触达深度信息。
1.2 实例查看弹层 (View Modal)
针对单资源的快速深度信息聚合,无需跳转页面即可在当前上下文查看图表与告警。
核心能力
- 双标签页切换:
- 监控视图(MonitorView)标签:展示该实例的细分指标,以折线图呈现核心性能指标的时间趋势;
- 告警列表(MonitorAlarm)标签:关联该实例的告警记录,支持查看相关活跃/历史告警,展示告警的「级别、时间、名称、状态」,并提供操作。
- 详情入口:弹层右上角提供“查看仪表盘(详情页)”入口。
1.3 实例详情页 (Detail 主路由)
针对单资源的全量指标全景图(目前详情主路由独立页面仅开放 Metrics 指标展示,相关联的告警已左移至实例查看弹层中管理)。
核心能力
- 全量指标分类展示:指标按「进程、磁盘IO、内存」等维度折叠分类,展开后可查看该分类下的所有监控指标;
- 多图表可视化:每个指标以折线图呈现时间趋势,支持鼠标悬浮查看「具体时间、指标数值、关联设备(如磁盘IO的设备名)」;
- 时间范围灵活筛选:支持选择「最近15分钟/自定义时间段」,快速回溯不同周期的指标数据;
- 指标操作入口:每个图表提供「搜索、收藏」快捷操作,便于后续快速定位关注指标;
- 有效插件过滤:指标 Tab 只展示该实例实际接入的采集模板,主动采集插件有配置即展示(状态可为离线),被动/API 插件须最近有数据上报才出现,避免展示无数据的空指标分组。
1.4 采集中断区间高亮
在长时间范围展示下(如按小时级展示 30 天数据),若采集间隔较短(如 1 分钟),某展示点内部发生的短暂未上报(如 5 分钟)可能在降采样折线图中被"连通"而不被察觉。平台通过后端断点检测将采集中断区间作为元数据返回,前端在折线图对应 x 轴区间渲染低透明度的变色背景,引导用户缩小时间范围进一步排查。
核心能力
- 采集间隔驱动检测:断点识别以实例的实际采集间隔为基准(默认连续未上报超过
2 × 采集间隔即判定为断点),不因降采样 step 大小而漏报; - 区间背景可视化:断点区间在折线图中渲染为低透明度告警色背景,置于数据线下方且不遮挡阈值线和事件条;
- 悬停提示引导:鼠标悬停断点区间时,Tooltip 提示"该区间存在采集中断,可缩小时间范围查看",引导快速下钻;
- 多视图一致:通用监控视图(Recharts)与对象仪表盘(ECharts)共享同一断点元数据契约,展示行为保持一致;
- 按需启用:仅监控视图主动传入采集间隔参数时启用细粒度检测,未传入时保持既有连线行为,向后兼容。
2. 搜索 (Search)
搜索是平台的即时分析与数据探索中枢,支持对全量指标的自由组合查询与跨维度实时聚合,满足非预设场景下的深度下钻与关联分析需求,为运维人员进行证据挖掘与故障定界提供多维视角的数据分析支撑。
2.1 结构化查询构建
通过左侧「数据查询」面板,用户可以自上而下地构建复杂的监控请求,系统会自动根据上下文过滤可用选项。
🖼️ 界面指引:
![]()
核心能力
- 插件感知的链式选择:查询路径为「对象 → 插件 → 资产 → 指标」。当所选对象下存在多个采集插件(如"主机"同时拥有 Host、Host Remote、Windows WMI 等插件)时,页面自动显示插件选择器,避免同名指标(如
cpu_usage_total)因插件不同而查错数据来源;若对象只有单一插件则自动选中,不打断操作流程; - 指标 ID 精确寻址:新查询状态以指标的数据库 ID(而非指标名)作为身份标识,彻底消除多插件同名指标的数据混淆;已保存的旧查询和旧链接仍通过兼容解析自动加载;
- 实时汇聚计算:支持对选定周期内的数据进行 AVG(平均值)、MAX(最大值)、MIN(最小值)、SUM(求和)等数学汇聚,满足从资源负载分析到业务总量统计的不同场景;
- 查询配置复用:支持一键复制查询条件,快速构建相似指标的对比视图。
2.2 维度过滤与精准清洗
在基础查询之上,利用「条件」功能可以针对指标自带的标签(Labels/Tags)进行精细化过滤,排除数据噪音。同时支持多组条件(AND 条件)交集组合,实现更高精度的匹配。
🖼️ 界面指引:
核心能力
- 精细化数据切分:通过指标属性(如 K8s 的
pod_name或主机的device)进行筛选,仅观测特定子集的性能表现。 - 逻辑运算符支持:提供「维度键、操作符(
=、!=、in、not in等)、维度值」的标准三段式配置。 - 多条件联合查询:支持添加多组过滤 AND 条件,通过灵活的逻辑匹配逻辑,实现对海量监控数据的精准“脱水”与定位。
2.3 智能可视化与维度表
系统会根据查询结果自动渲染高精度的时序折线图(趋势图),并配套实时统计摘要数据(维度表)。
🖼️ 界面指引:
核心能力
- 多实例曲线同屏:支持在一个趋势图中同时展示多个实例(如多台主机的 CPU)的指标波动,便于识别离群值。
- 维度表统计:图表下方或侧边实时计算出当前时间窗口内不同维度的「最大值、最小值、平均值」,量化资源运行区间。
- 交互式探针:鼠标悬停可触发数据探针,查看特定时间点的精确读数。
2.4 多查询组与管理 (保存/加载)
支持多查询任务并行、灵活的仪表盘布局以及命名查询的保存与加载,用于分析不同指标间的相关性或固化日常的高优探索模式。
🖼️ 界面指引:
![]()
核心能力
- 多查询组(多任务并行):点击「+ 添加查询」可创建多个独立的查询卡片,实现跨资源、跨指标的同轴/分轴分析。
- 命名查询保存/加载:允许将配置好的多维度复杂查询条件按一个或多个组织范围保存,后续可在当前权限范围内快速加载复用,提升日常复用效率。
- 分层布局切换:
- 列表模式:纵向铺开,适合深度分析单一指标的长周期波形。
- 平铺网格模式:矩阵排列,适合在有限屏幕内监控全链路核心指标。
- 全局时间联动:支持统一选择时间段,一键刷新所有图表确保基准串联。
3. 事件 (Event)
事件是平台的告警全流程管理核心模块,整合“告警、策略、模板”三个子标签页,实现从“异常监控-告警处置-规则配置-模板复用”的闭环运维,是运维人员处理监控异常的统一操作入口。
3.1 事件页面
核心定位
事件页面是告警全流程的集中操作载体,顶部通过三个子标签页实现功能切换:
- 告警标签页:管理当前未处置/已处置的告警记录(对应3.2功能);
- 策略标签页:创建/编辑告警检测规则(对应3.3功能);
- 模板标签页:复用预置的告警规则模板(对应3.4功能); 无需跳转其他页面,即可完成“查看告警、配置规则、使用模板”的核心操作,提升运维效率。
3.2 告警管理(事件页面“告警”标签页)
在“告警”子标签页下,可分“活跃告警”“历史告警”两类管理监控异常。
3.2.1 活跃告警管理
实时掌握当前未处置的异常告警,快速定位并处理高危事件。当相关告警策略被“停用”时,系统将自动关闭由该策略触发且当前仍活跃的告警,防止告警积压。
核心能力
- 多维度筛选:支持按监控对象树、告警级别、状态与关键词筛选活跃告警,便于快速缩小排查范围;
- 告警分布可视化:通过直方图展示告警时间密度,直观识别”告警风暴”时段;
- 告警处置与详情:列表展示告警的「级别、时间、关联资产、状态」,点击「详情」可查看告警完整信息(包含首次告警时间、策略名称、通知渠道来源等),点击「关闭」标记告警为已处置;
- 策略配置变更自动收敛:当告警策略的数据来源、分组维度、查询条件、监控对象或采集类型发生语义变更时,系统自动关闭该策略下的旧活跃阈值告警,并在操作日志中记录变更类原因(如
policy_scope_changed、policy_group_by_changed等),防止因策略范围漂移导致告警长期假活跃。已配置告警中心渠道时,同步推送关闭事件;未配置时仅进行本地生命周期收敛,不打扰普通通知渠道。
3.2.2 历史告警复盘
查询已处置/自动恢复的历史告警,辅助故障溯源与SLA分析。
核心能力
- 历史范围筛选:支持通过时间范围回溯历史告警,并结合监控对象树、级别、状态与关键词精准定位异常;
- 多状态展示:列表包含“自动恢复”与“人工关闭”状态的告警,标注「操作员、通知情况」,便于追溯处理过程;
- 趋势分析:直方图展示历史告警时间分布,助力识别周期性故障。
3.3 策略配置(事件页面“策略”标签页)
在“策略”子标签页下,可管理告警规则的生命周期,并通过“创建策略”向导定义精准的异常检测逻辑。
3.3.1 策略生命周期管理
策略列表展示已配置规则的「名称、监控目标数、创建者、执行时间、生效状态」,并提供:
- 「生效开关」:一键启用/禁用策略;
- 「编辑/删除」:调整规则或移除无效配置;
- 「+添加」:点击进入创建策略向导,按4步完成新规则配置。
3.3.2 分步式创建策略向导
通过向导式表单,完成从“基础信息”到“通知配置”的全流程规则定义:
- 步骤1:基本信息配置
- 策略名称:填写规则标识(如“主机CPU使用率过高”);
- 告警名称:支持引用变量(如
${monitor_object}${resource_name}产生${metric_name}告警),实现不同实例的动态告警名称; - 组织:选择规则所属组织(默认选“Default”);
- 目标:点击「+」选择要监控的资产(支持多选);
- 检测频率:设置指标检测周期(如“5分钟/次”)。
-
步骤2:定义指标规则
- 采集模板:选择对应采集插件(如“host”对应主机采集);
- 指标:选择具体监控指标(如“cpu_summary.usage”对应CPU使用率);
- 过滤器/组:通过维度(如
instance_id)筛选/分组指标数据; - 汇聚方式:选择检测周期内的指标计算方式(如“MAX”取最大值);
- 汇聚周期:设置指标数据的汇聚时间范围(如“5分钟”)。
-
步骤3:设置告警条件
- 阈值设定:基于检测算法对指标数值设置条件(如严重级”≥90”、错误级”≥85”、警告级”≥80”),用于触发阈值告警;
- 无数据告警:支持独立配置策略级的无数据告警,当整个资源或采集项在指定周期内未完整上报时触发,防止因采集插件假死造成的漏报风险;
- 自动恢复:设置”连续N个周期不满足阈值时,告警自动恢复”(如”5个周期”);
- 策略预览:配置查询条件、聚合算法、分组维度、查询周期与计算单位后,可点击「预览」查看当前参数对应的指标查询结果。预览由后端按与实际策略扫描相同的查询语义执行,返回实际生成的查询语句、时序数据点及告警提示(如单位不可转换时的 warnings),有效避免前端自拼 PromQL 导致
_over_time等复杂算法产生无效查询表达式,确保预览与线上扫描结果一致,便于在正式保存前验证规则的合理性。
- 步骤4:配置通知
- 开启/关闭「通知」开关,通知渠道来源于系统管理已配置的渠道,实现告警触达。
完成4步配置后点击「确认」,策略将按检测频率自动运行,触发异常时生成告警。
3.3.3 告警生命周期通知
告警通知以「告警(MonitorAlert)」的生命周期状态变化为触发时机,而非每次事件扫描均推送,从根本上消除重复通知风暴。通知配置(渠道 + 接收人)在告警创建时从策略快照,后续整个生命周期均使用快照配置,不受策略通知方式事后修改影响。
| 动作 | 触发条件 | 说明 |
|---|---|---|
| created(告警产生) | 新告警创建时 | 通知标题包含策略名、资源、告警级别和时间 |
| upgraded(告警升级) | 告警级别权重提升时 | 通知旧级别 → 新级别的变化 |
| closed(告警关闭) | 手动关闭/策略删除/策略禁用/配置变更收敛 | 通知操作人、原因和时间 |
| recovered(告警恢复) | 连续 N 个周期不满足阈值 / 无数据恢复 | 通知持续时长 |
通知连续性保障:关闭策略通知开关(notice=false)后,新告警不再触发 created 通知;但此前已成功通知的活跃告警,仍可在恢复或关闭时向原渠道发送终态通知,防止告警中心出现"永久活跃"的僵尸告警。
3.4 模板库(事件页面“模板”标签页)
在“模板”子标签页下,可复用预置的告警规则模板,降低配置门槛。
核心能力
- 预置主流模板:按资产类型分类,提供”主机CPU使用率过高、内存使用率过高”等核心场景模板;
- 模板详情说明:每个模板标注”检测逻辑+风险提示”(如”主机CPU使用率过高:检测CPU是否超标,提示系统过载风险”);
- 快速复用:基于模板可直接生成告警策略,无需重复配置基础规则;
- 批量应用模板:支持在模板页面多选若干模板,再通过三步向导一次性批量创建策略。
- 步骤1 确认模板:查看并可移除已选模板,模板阈值、算法和告警级别保持原始值不可在此修改;
- 步骤2 选择资产:为所有选中模板统一指定目标监控资产(如 20 台主机),不因资产数量影响最终创建的策略数;
- 步骤3 共享配置:统一设置检测频率、组织归属、通知渠道和策略启用状态,策略名称默认沿用模板名并可选填前缀(如”生产环境 - CPU使用率过高”);
- 结果反馈:提交后显示成功/失败数量及每个模板的失败原因,支持跳转至策略列表查看本次批量创建的策略。
4. 集成(Integration)
集成是监控数据采集的配置与管理中枢,通过“集成、资产、分组、对象”四类入口,实现“采集模板接入-已接入资产管理-资源分组规则配置-监控对象治理”的全流程采集管理,为监控场景提供稳定的数据来源支撑。
4.1 集成(采集模板接入)
核心能力
- 预置全栈采集模板:提供覆盖”主机(Telegraf)、网站拨测(Website)、Ping、数据库(Elasticsearch/MySQL等)、中间件”的标准化采集模板。每个模板卡片会直观展示当前的状态(如是否已启用、是否开箱即用等)以及采集逻辑(如”主机模板:通过Telegraf采集CPU、内存、磁盘等数据”)。其中,Website(Web 拨测)插件支持「跳过证书校验」(
insecure_skip_verify)开关,在 HTTPS 场景下可跳过服务端证书校验(默认关闭),适用于自签名证书环境; - 灵活的接入口径(自动与手动):部分内置资源(如操作系统主机基础采集)支持全自动接入免配置,同时针对复杂对象提供向导式的模板手动接入流程。API 类型模板默认进入接入引导页,非 K8s 对象进入自动配置页,K8s 对象进入专用三步向导。点击模板的「+接入」按钮后,可完成3类核心配置:
- 选择采集指标(如Disk/CPU/Memory等);
- 设置监控对象(选择目标节点资产);
- 配置采集间隔(如10s); 完成后即可创建对应资产的采集任务;
- 详情能力分层:模板详情页默认提供「Configure」与「Metric」能力;当模板类型为 SNMP 时,额外提供「Collect」入口用于采集模板维护;
- 分类筛选模板:左侧导航栏按“操作系统/网络/数据库”维度分类,可快速定位目标类型的采集模板。
4.2 资产(已接入资源管理)
核心能力
- 已接入资产概览:列表展示所有配置采集口径关联的资产对象,包含「资产名称、集成模板、所属组织」,左侧可按“主机/网站/数据库”等资产类型筛选;
- 资产全生命周期操作:每个资产支持4类运维操作:
- 「视图」:查看该资产的采集详情与监控图表基盘;
- 「编辑」:修改资产的「实例名称、所属组织」;
- 「配置」:调整采集目标的特定参数(如监控指标类型、目标IP、采集间隔);
- 「删除」:移除无效的采集资产;
- 采集状态监控:资产详情页展示单资产个体的「上报状态、最后上报时间」,实时确认该资产节点的数据采集链路是否正常贯通。
4.3 分组(资源分组规则配置)
核心能力
- 资源逻辑分组管理:通过规则将同一类型口径下的散列资产,按“技术维度(如K8s/Pod、操作系统/主机)”或业务集群维度重新聚合。列表展示「规则名称、对象类型、规则描述、所属组织」;
- 规则配置逻辑:创建/编辑规则时,可设置「匹配指标、条件(如
instance_id = 3)、所属组织」,实现资产的自动归类; - 批量运维支撑:分组规则为后续“批量配置告警策略、批量查看监控数据”提供逻辑分组基础,减少重复操作、提升运维效率。
4.4 对象(监控对象治理)
核心能力
- 对象类型管理:支持新增、编辑、删除与排序监控对象类型,用于统一收敛监控对象的业务分类;
- 监控对象管理:支持新增、编辑、删除、排序监控对象,并控制对象可见性,确保接入、视图、模板等页面口径一致;
- 对象范围支撑:对象与对象类型可直接用于集成接入、资源查看、模板选择和策略范围配置,减少跨页面配置歧义;
- 实例列表列名国际化:监控对象实例列表的展示列名跟随当前账号的语言设置(中文/英文)自动切换,且用户自定义的列显示配置在语言切换后不会丢失或回退,确保多语言用户体验一致;
- 展示指标配置:每个监控对象(含内置对象)均提供「展示」入口,通过配置弹窗定义该对象在视图列表中可见的展示列及其对应的采集模板指标映射。
- 对于有子对象的复合对象(如 Kubernetes 含 Pod、Node),弹窗左侧展示对象树,可分别为主对象和各子对象独立配置展示列;
- 每个展示列支持添加多条「采集模板 / 指标」映射,以兼容不同插件来源的同类指标(如 CPU 使用率可同时映射 Host 模板与 HostRemote 模板的不同指标字段);
- 支持拖拽排序展示列,满足不同团队对重点指标优先级的个性化需求。
4.5 SNMP 网络设备监控(Beta)
针对交换机、路由器、防火墙、负载均衡四类网络设备,平台提供基于 SNMP 协议的设备状态与性能监控接入能力。区别于流量采集(NetFlow/sFlow)的数据流分析,SNMP 监控通过主动轮询采集设备的运行状态、接口吞吐、CPU/内存利用率等关键性能指标,适合网络设备的健康度与可用性监控。
核心能力
- 广泛的厂商品牌覆盖:内置约 61 个主流厂商品牌的 SNMP 采集插件,覆盖华为、思科、H3C、瞻博、锐捷、华三、迪普、博科、派拓、F5 等业内主流品牌,以及交换机、路由器、防火墙、负载均衡四大设备类型;每个品牌插件均内置厂商专属的 MIB 采集模板,开箱即可采集该品牌设备的标准指标,无需手动配置 OID;
- 预置指标与告警模板:每个品牌 SNMP 插件内置标准化的设备性能指标(如接口流量、CPU 利用率、内存使用率、设备可达性等),并配套开箱即用的告警模板,可直接基于模板创建告警策略,大幅降低网络设备监控的配置门槛;
- 设备实例唯一身份:网络设备实例以「云区域 + 设备 IP」作为唯一标识。当同一设备被多个不同厂商的 SNMP 插件采集时,平台自动将这些采集数据归并到同一资产实例下,避免重复资产,保持资产视图整洁;
- 统一资产管理:SNMP 网络设备资产纳入集成「资产」页统一管理,支持查看采集状态、编辑资产信息、调整采集配置,与其他监控资源保持一致的管理体验。
4.6 流量监控接入(NetFlow / sFlow)
针对交换机、路由器、防火墙、负载均衡等网络设备,平台提供基于 NetFlow / sFlow 协议的流量监控接入能力。区别于 SNMP 的轮询采集,流量采集由设备主动将流量样本推送至平台监听端点,更适合分析网络流向与会话级流量分布。
核心能力
- 协议与接入地址生成:支持 NetFlow(UDP 2055) 与 sFlow(UDP 6343) 两种协议。选定协议与云区域后,平台基于该云区域的节点服务地址自动拼接出形如
udp://<host>:<port>的接入地址,并给出设备侧配置指引(开启流量导出、目标地址指向接入地址、保持设备源 IP 与已绑定资产 IP 一致)。 - 资产绑定与协议聚合:支持将流量资产与设备 IP、云区域绑定,单个资产可同时启用多个协议;同一云区域内
IP不可重复绑定,避免流量归属歧义。 - 丰富的内置指标:每个 NetFlow / sFlow 插件内置以下七组共 21 项监控指标,覆盖网络流量分析的主要维度:
- 流量总览(Traffic Overview):设备总入/出流量、总包量、平均包大小等;
- 接口流量(Interface Traffic):按设备接口统计的入/出流量与包量;
- 协议(Protocol):按 IP 协议类型(TCP/UDP/ICMP 等)分类的流量分布;
- 应用端口(Application Port):按目的端口统计的应用层流量;
- 端点(Endpoint):按源/目的 IP 统计的流量来源与去向;
- 会话(Conversation):按源 IP + 目的 IP 对统计的双向会话流量;
- 采样(Sampling):采样率及原始流量换算数据。
- 内置告警模板:每类网络设备(交换机/路由器/防火墙/负载均衡)的 NetFlow 与 sFlow 插件均内置三类告警阈值模板:设备总流量过高、设备总包量过高、平均包大小异常,可直接基于模板创建策略,无需手动配置指标。
- 采样率归一化与兜底:平台统一消费”有效采样率(effective_sampling_rate)”。接收侧按
SAMPLING_INTERVAL、SAMPLING_ALGORITHM、sampling_rate、samplingRate的优先级依次归一化采样率;若上报数据中均缺失,则回退到资产配置的兜底采样率(默认 1000),确保流量换算口径稳定。 - 云区域环境联动:当流量资产发生变更时,平台会将”IP→资产”映射刷新到对应云区域采集侧的环境变量,使接收组件按最新资产清单解析流量来源。
- 接入检测:以”最近时间窗内是否收到该资产对应协议的实际流量数据”作为接入成功的判定标准,便于快速确认链路是否打通。














