功能介绍
1. 监控视图 (View)
监控视图是运维人员的日常核心工作台,实现从“全局资源概览”到“单实例深度指标”的分层可视化,覆盖资源状态查看、指标趋势分析、告警关联的全场景需求。
1.1 全局资源视图(列表/蜂巢)
提供全量运维对象的集中概览,支持切换列表与蜂巢(Hive)视图,快速定位目标资源并查看基础状态(由于类型差异,部分资源如Pod/Node支持蜂巢拓展展示)。
核心能力
- 多维分类导航:左侧支持按「操作系统(主机)、网络(网站/Ping)、数据库(Elasticsearch/MySQL等)、中间件(RabbitMQ/Nginx等)」维度筛选纳管对象,每个分类旁标注资源数量(如“主机(1)”);
- 核心状态概览:列表模式展示资源的「名称、上报时间、上报状态(正常/异常)、CPU使用率、内存使用率」;蜂巢模式通过六边形色块直观呈现集群或节点的密度与状态分布;
- 快捷操作入口:每个资源右侧或悬浮提示中提供「查看实例(弹层)」、「仪表盘详情」按钮,一键触达深度信息。
1.2 实例查看弹层 (View Modal)
针对单资源的快速深度信息聚合,无需跳转页面即可在当前上下文查看图表与告警。
核心能力
- 双标签页切换:
- 监控视图(MonitorView)标签:展示该实例的细分指标,以折线图呈现核心性能指标的时间趋势;
- 告警列表(MonitorAlarm)标签:关联该实例的告警记录,支持查看相关活跃/历史告警,展示告警的「级别、时间、名称、状态」,并提供操作。
- 详情入口:弹层右上角提供“查看仪表盘(详情页)”入口。
1.3 实例详情页 (Detail 主路由)
针对单资源的全量指标全景图(目前详情主路由独立页面仅开放 Metrics 指标展示,相关联的告警已左移至实例查看弹层中管理)。
核心能力
- 全量指标分类展示:指标按「进程、磁盘IO、内存」等维度折叠分类,展开后可查看该分类下的所有监控指标;
- 多图表可视化:每个指标以折线图呈现时间趋势,支持鼠标悬浮查看「具体时间、指标数值、关联设备(如磁盘IO的设备名)」;
- 时间范围灵活筛选:支持选择「最近15分钟/自定义时间段」,快速回溯不同周期的指标数据;
- 指标操作入口:每个图表提供「搜索、收藏」快捷操作,便于后续快速定位关注指标。
2. 搜索 (Search)
搜索是平台的即时分析与数据探索中枢,支持对全量指标的自由组合查询与跨维度实时聚合,满足非预设场景下的深度下钻与关联分析需求,为运维人员进行证据挖掘与故障定界提供多维视角的数据分析支撑。
2.1 结构化查询构建
通过左侧「数据查询」面板,用户可以自上而下地构建复杂的监控请求,系统会自动根据上下文过滤可用选项。
🖼️ 界面指引:
![]()
核心能力
- 链式对象选择:引导式选择「对象(插件类型)」→「资产(具体实例)」→「指标(监控项)」,确保查询路径的准确性。
- 实时汇聚计算:支持对选定周期内的数据进行 AVG(平均值)、MAX(最大值)、MIN(最小值)、SUM(求和)等数学汇聚,满足从资源负载分析到业务总量统计的不同场景。
- 查询配置复用:支持一键复制查询条件,快速构建相似指标的对比视图。
2.2 维度过滤与精准清洗
在基础查询之上,利用「条件」功能可以针对指标自带的标签(Labels/Tags)进行精细化过滤,排除数据噪音。同时支持多组条件(AND 条件)交集组合,实现更高精度的匹配。
🖼️ 界面指引:
核心能力
- 精细化数据切分:通过指标属性(如 K8s 的
pod_name或主机的device)进行筛选,仅观测特定子集的性能表现。 - 逻辑运算符支持:提供「维度键、操作符(
=、!=、in、not in等)、维度值」的标准三段式配置。 - 多条件联合查询:支持添加多组过滤 AND 条件,通过灵活的逻辑匹配逻辑,实现对海量监控数据的精准“脱水”与定位。
2.3 智能可视化与维度表
系统会根据查询结果自动渲染高精度的时序折线图(趋势图),并配套实时统计摘要数据(维度表)。
🖼️ 界面指引:
核心能力
- 多实例曲线同屏:支持在一个趋势图中同时展示多个实例(如多台主机的 CPU)的指标波动,便于识别离群值。
- 维度表统计:图表下方或侧边实时计算出当前时间窗口内不同维度的「最大值、最小值、平均值」,量化资源运行区间。
- 交互式探针:鼠标悬停可触发数据探针,查看特定时间点的精确读数。
2.4 多查询组与管理 (收藏/加载)
支持多查询任务并行、灵活的仪表盘布局以及命名查询的书签管理,用于分析不同指标间的相关性或固化日常的高优探索模式。
🖼️ 界面指引:
![]()
核心能力
- 多查询组(多任务并行):点击「+ 添加查询」可创建多个独立的查询卡片,实现跨资源、跨指标的同轴/分轴分析。
- 命名查询保存/加载:允许将配置好的多维度复杂查询条件保存为“收藏的书签”,支持后续快速加载检索,提升日常复用效率。
- 分层布局切换:
- 列表模式:纵向铺开,适合深度分析单一指标的长周期波形。
- 平铺网格模式:矩阵排列,适合在有限屏幕内监控全链路核心指标。
- 全局时间联动:支持统一选择时间段,一键刷新所有图表确保基准串联。
3. 事件 (Event)
事件是平台的告警全流程管理核心模块,整合“告警、策略、模板”三个子标签页,实现从“异常监控-告警处置-规则配置-模板复用”的闭环运维,是运维人员处理监控异常的统一操作入口。
3.1 事件页面
核心定位
事件页面是告警全流程的集中操作载体,顶部通过三个子标签页实现功能切换:
- 告警标签页:管理当前未处置/已处置的告警记录(对应3.2功能);
- 策略标签页:创建/编辑告警检测规则(对应3.3功能);
- 模板标签页:复用预置的告警规则模板(对应3.4功能); 无需跳转其他页面,即可完成“查看告警、配置规则、使用模板”的核心操作,提升运维效率。
3.2 告警管理(事件页面“告警”标签页)
在“告警”子标签页下,可分“活跃告警”“历史告警”两类管理监控异常。
3.2.1 活跃告警管理
实时掌握当前未处置的异常告警,快速定位并处理高危事件。当相关告警策略被“停用”时,系统将自动关闭由该策略触发且当前仍活跃的告警,防止告警积压。
核心能力
- 多维度筛选:支持按「级别(严重 Fatal / 预警 Warning / 提醒 Info)、状态」下拉筛选,左侧导航栏可按“操作系统/网络/数据库”等资产类型过滤告警;
- 告警分布可视化:通过直方图展示告警时间密度,直观识别“告警风暴”时段;
- 告警处置与详情:列表展示告警的「级别、时间、关联资产、状态」,点击「详情」可查看告警完整信息(包含首次告警时间、策略名称、通知渠道来源等),点击「关闭」标记告警为已处置。
3.2.2 历史告警复盘
查询已处置/自动恢复的历史告警,辅助故障溯源与SLA分析。
核心能力
- 时间范围筛选:支持“最近7天/自定义时间段”查询,结合资产类型筛选精准定位特定资源的历史异常;
- 多状态展示:列表包含“自动恢复”状态的告警,标注「操作员、通知情况」,便于追溯处理过程;
- 趋势分析:直方图展示历史告警时间分布,助力识别周期性故障。
3.3 策略配置(事件页面“策略”标签页)
在“策略”子标签页下,可管理告警规则的生命周期,并通过“创建策略”向导定义精准的异常检测逻辑。
3.3.1 策略生命周期管理
策略列表展示已配置规则的「名称、监控目标数、创建者、执行时间、生效状态」,并提供:
- 「生效开关」:一键启用/禁用策略;
- 「编辑/删除」:调整规则或移除无效配置;
- 「+添加」:点击进入创建策略向导,按4步完成新规则配置。
3.3.2 分步式创建策略向导
通过向导式表单,完成从“基础信息”到“通知配置”的全流程规则定义:
-
步骤1:基本信息配置
- 策略名称:填写规则标识(如“主机CPU使用率过高”);
- 告警名称:支持引用变量(如
主机 ${metric_instance_id} CPU 使用率过高),实现不同实例的动态告警名称; - 组织:选择规则所属组织(默认选“Default”);
- 目标:点击「+」选择要监控的资产(支持多选);
- 检测频率:设置指标检测周期(如“5分钟/次”)。
-
步骤2:定义指标规则
- 采集模板:选择对应采集插件(如“host”对应主机采集);
- 指标:选择具体监控指标(如“cpu_summary.usage”对应CPU使用率);
- 过滤器/组:通过维度(如
instance_id)筛选/分组指标数据; - 汇聚方式:选择检测周期内的指标计算方式(如“MAX”取最大值);
- 汇聚周期:设置指标数据的汇聚时间范围(如“5分钟”)。
-
步骤3:设置告警条件
- 阈值设定:基于检测算法对指标数值设置条件(如严重级“≥90”、错误级“≥85”、警告级“≥80”);基于算法本身也可对获取不到数据的情况(如
threshold/no_data)触发条件; - 全局无数据告警:支持独立于阈值条件配置策略级的“无数据告警(
alert/no_data)”,当整个资源或采集项数据长时间未完整上报时触发,防止因采集插件假死造成的漏报风险; - 自动恢复:设置“连续N个周期不满足阈值时,告警自动恢复”(如“5个周期”)。
- 阈值设定:基于检测算法对指标数值设置条件(如严重级“≥90”、错误级“≥85”、警告级“≥80”);基于算法本身也可对获取不到数据的情况(如
-
步骤4:配置通知
- 开启/关闭「通知」开关,后续可绑定邮件、企业微信等渠道,实现告警触达。
完成4步配置后点击「确认」,策略将按检测频率自动运行,触发异常时生成告警。
3.4 模板库(事件页面“模板”标签页)
在“模板”子标签页下,可复用预置的告警规则模板,降低配置门槛。
核心能力
- 预置主流模板:按资产类型分类,提供“主机CPU使用率过高、内存使用率过高”等核心场景模板;
- 模板详情说明:每个模板标注“检测逻辑+风险提示”(如“主机CPU使用率过高:检测CPU是否超标,提示系统过载风险”);
- 快速复用:基于模板可直接生成告警策略,无需重复配置基础规则。
4. 集成(Integration)
集成是监控数据采集的配置与管理中枢,通过“集成、资产、分组”三个子标签页,实现“采集模板接入-已接入资产管理-资源分组规则配置”的全流程采集管理,为监控场景提供稳定的数据来源支撑。
4.1 集成(采集模板接入)
核心能力
- 预置全栈采集模板:提供覆盖“主机(Telegraf)、网站拨测、Ping、数据库(Elasticsearch/MySQL等)、中间件”的标准化采集模板。每个模板卡片会直观展示当前的状态(如是否已启用、是否开箱即用等)以及采集逻辑(如“主机模板:通过Telegraf采集CPU、内存、磁盘等数据”);
- 灵活的接入口径(自动与手动):部分内置资源(如操作系统主机基础采集)支持全自动接入免配置,同时针对复杂对象提供向导式的模板手动接入流程。点击模板的「+接入」按钮,进入配置页完成3类核心配置:
- 选择采集指标(如Disk/CPU/Memory等);
- 设置监控对象(选择目标节点资产);
- 配置采集间隔(如10s); 完成后即可创建对应资产的采集任务;
- 分类筛选模板:左侧导航栏按“操作系统/网络/数据库”维度分类,可快速定位目标类型的采集模板。
4.2 资产(已接入资源管理)
核心能力
- 已接入资产概览:列表展示所有配置采集口径关联的资产对象,包含「资产名称、集成模板、所属组织」,左侧可按“主机/网站/数据库”等资产类型筛选;
- 资产全生命周期操作:每个资产支持4类运维操作:
- 「视图」:查看该资产的采集详情与监控图表基盘;
- 「编辑」:修改资产的「实例名称、所属组织」;
- 「配置」:调整采集目标的特定参数(如监控指标类型、目标IP、采集间隔);
- 「删除」:移除无效的采集资产;
- 采集状态监控:资产详情页展示单资产个体的「上报状态、最后上报时间」,实时确认该资产节点的数据采集链路是否正常贯通。
4.3 分组(资源分组规则配置)
核心能力
- 资源逻辑分组管理:通过规则将同一类型口径下的散列资产,按“技术维度(如K8s/Pod、操作系统/主机)”或业务集群维度重新聚合。列表展示「规则名称、对象类型、规则描述、所属组织」;
- 规则配置逻辑:创建/编辑规则时,可设置「匹配指标、条件(如
instance_id = 3)、所属组织」,实现资产的自动归类; - 批量运维支撑:分组规则为后续“批量配置告警策略、批量查看监控数据”提供逻辑分组基础,减少重复操作、提升运维效率。














