跳到主要内容

功能介绍

1. 监控视图 (View)

监控视图是运维人员的日常核心工作台,实现从“全局资源概览”到“单实例深度指标”的分层可视化,覆盖资源状态查看、指标趋势分析、告警关联的全场景需求。

1.1 全局资源视图(列表/蜂巢)

提供全量运维对象的集中概览,支持切换列表与蜂巢(Hive)视图,快速定位目标资源并查看基础状态(由于类型差异,部分资源如Pod/Node支持蜂巢拓展展示)。

49205af9-5582-46ff-9f99-c3c8ebc5a99f.png

核心能力

  • 多维分类导航:左侧支持按「操作系统(主机)、网络(网站/Ping)、数据库(Elasticsearch/MySQL等)、中间件(RabbitMQ/Nginx等)」维度筛选纳管对象,每个分类旁标注资源数量(如“主机(1)”);
  • 核心状态概览:列表模式展示资源的「名称、上报时间、上报状态(正常/异常)、CPU使用率、内存使用率」;蜂巢模式通过六边形色块直观呈现集群或节点的密度与状态分布;
  • 快捷操作入口:每个资源右侧或悬浮提示中提供「查看实例(弹层)」、「仪表盘详情」按钮,一键触达深度信息。

1.2 实例查看弹层 (View Modal)

针对单资源的快速深度信息聚合,无需跳转页面即可在当前上下文查看图表与告警。

0ccd53ce-3b7c-4668-8c8d-c761c46eed22.png d0e0382f-5753-4a00-9bb1-8caea7e10db8.png 12a6d300-204d-40c2-82a5-3ac4b4684c3d.png

核心能力

  • 双标签页切换
    • 监控视图(MonitorView)标签:展示该实例的细分指标,以折线图呈现核心性能指标的时间趋势;
    • 告警列表(MonitorAlarm)标签:关联该实例的告警记录,支持查看相关活跃/历史告警,展示告警的「级别、时间、名称、状态」,并提供操作。
    • 详情入口:弹层右上角提供“查看仪表盘(详情页)”入口。

1.3 实例详情页 (Detail 主路由)

针对单资源的全量指标全景图(目前详情主路由独立页面仅开放 Metrics 指标展示,相关联的告警已左移至实例查看弹层中管理)。

0e1add3a-1a65-45df-ad23-613be11a4281.png 5c051f8a-34bc-41e6-a391-46638ae9564b.png

核心能力

  • 全量指标分类展示:指标按「进程、磁盘IO、内存」等维度折叠分类,展开后可查看该分类下的所有监控指标;
  • 多图表可视化:每个指标以折线图呈现时间趋势,支持鼠标悬浮查看「具体时间、指标数值、关联设备(如磁盘IO的设备名)」;
  • 时间范围灵活筛选:支持选择「最近15分钟/自定义时间段」,快速回溯不同周期的指标数据;
  • 指标操作入口:每个图表提供「搜索、收藏」快捷操作,便于后续快速定位关注指标。

搜索是平台的即时分析与数据探索中枢,支持对全量指标的自由组合查询与跨维度实时聚合,满足非预设场景下的深度下钻与关联分析需求,为运维人员进行证据挖掘与故障定界提供多维视角的数据分析支撑。

2.1 结构化查询构建

通过左侧「数据查询」面板,用户可以自上而下地构建复杂的监控请求,系统会自动根据上下文过滤可用选项。

🖼️ 界面指引: 事件1.png 事件2.png

核心能力

  • 链式对象选择:引导式选择「对象(插件类型)」→「资产(具体实例)」→「指标(监控项)」,确保查询路径的准确性。
  • 实时汇聚计算:支持对选定周期内的数据进行 AVG(平均值)、MAX(最大值)、MIN(最小值)、SUM(求和)等数学汇聚,满足从资源负载分析到业务总量统计的不同场景。
  • 查询配置复用:支持一键复制查询条件,快速构建相似指标的对比视图。

2.2 维度过滤与精准清洗

在基础查询之上,利用「条件」功能可以针对指标自带的标签(Labels/Tags)进行精细化过滤,排除数据噪音。同时支持多组条件(AND 条件)交集组合,实现更高精度的匹配。

🖼️ 界面指引: 事件3.png

核心能力

  • 精细化数据切分:通过指标属性(如 K8s 的 pod_name 或主机的 device)进行筛选,仅观测特定子集的性能表现。
  • 逻辑运算符支持:提供「维度键、操作符(=!=innot in 等)、维度值」的标准三段式配置。
  • 多条件联合查询:支持添加多组过滤 AND 条件,通过灵活的逻辑匹配逻辑,实现对海量监控数据的精准“脱水”与定位。

2.3 智能可视化与维度表

系统会根据查询结果自动渲染高精度的时序折线图(趋势图),并配套实时统计摘要数据(维度表)。

🖼️ 界面指引: 事件4.png

核心能力

  • 多实例曲线同屏:支持在一个趋势图中同时展示多个实例(如多台主机的 CPU)的指标波动,便于识别离群值。
  • 维度表统计:图表下方或侧边实时计算出当前时间窗口内不同维度的「最大值、最小值、平均值」,量化资源运行区间。
  • 交互式探针:鼠标悬停可触发数据探针,查看特定时间点的精确读数。

2.4 多查询组与管理 (收藏/加载)

支持多查询任务并行、灵活的仪表盘布局以及命名查询的书签管理,用于分析不同指标间的相关性或固化日常的高优探索模式。

🖼️ 界面指引: 事件5.png 事件6.png

核心能力

  • 多查询组(多任务并行):点击「+ 添加查询」可创建多个独立的查询卡片,实现跨资源、跨指标的同轴/分轴分析。
  • 命名查询保存/加载:允许将配置好的多维度复杂查询条件保存为“收藏的书签”,支持后续快速加载检索,提升日常复用效率。
  • 分层布局切换
    • 列表模式:纵向铺开,适合深度分析单一指标的长周期波形。
    • 平铺网格模式:矩阵排列,适合在有限屏幕内监控全链路核心指标。
  • 全局时间联动:支持统一选择时间段,一键刷新所有图表确保基准串联。

3. 事件 (Event)

事件是平台的告警全流程管理核心模块,整合“告警、策略、模板”三个子标签页,实现从“异常监控-告警处置-规则配置-模板复用”的闭环运维,是运维人员处理监控异常的统一操作入口。

3.1 事件页面

9d79d1ec-58fe-41f0-aba8-a62f854ebc8a.png

核心定位

事件页面是告警全流程的集中操作载体,顶部通过三个子标签页实现功能切换:

  • 告警标签页:管理当前未处置/已处置的告警记录(对应3.2功能);
  • 策略标签页:创建/编辑告警检测规则(对应3.3功能);
  • 模板标签页:复用预置的告警规则模板(对应3.4功能); 无需跳转其他页面,即可完成“查看告警、配置规则、使用模板”的核心操作,提升运维效率。

3.2 告警管理(事件页面“告警”标签页)

在“告警”子标签页下,可分“活跃告警”“历史告警”两类管理监控异常。

3.2.1 活跃告警管理

实时掌握当前未处置的异常告警,快速定位并处理高危事件。当相关告警策略被“停用”时,系统将自动关闭由该策略触发且当前仍活跃的告警,防止告警积压。

fec1b716-0425-4803-89e7-459cd024ba69.png aa360431-0fa2-4acb-bb8d-45dc9eee783f.png

核心能力
  • 多维度筛选:支持按「级别(严重 Fatal / 预警 Warning / 提醒 Info)、状态」下拉筛选,左侧导航栏可按“操作系统/网络/数据库”等资产类型过滤告警;
  • 告警分布可视化:通过直方图展示告警时间密度,直观识别“告警风暴”时段;
  • 告警处置与详情:列表展示告警的「级别、时间、关联资产、状态」,点击「详情」可查看告警完整信息(包含首次告警时间、策略名称、通知渠道来源等),点击「关闭」标记告警为已处置。

3.2.2 历史告警复盘

查询已处置/自动恢复的历史告警,辅助故障溯源与SLA分析。

5e057f61-2d03-475d-9080-38d32c5f880b.png

核心能力
  • 时间范围筛选:支持“最近7天/自定义时间段”查询,结合资产类型筛选精准定位特定资源的历史异常;
  • 多状态展示:列表包含“自动恢复”状态的告警,标注「操作员、通知情况」,便于追溯处理过程;
  • 趋势分析:直方图展示历史告警时间分布,助力识别周期性故障。

3.3 策略配置(事件页面“策略”标签页)

在“策略”子标签页下,可管理告警规则的生命周期,并通过“创建策略”向导定义精准的异常检测逻辑。

e71be938-76a1-4a89-a796-b0844f98ad7d.png 5cd2d595-1893-4321-bd1c-e0e11911a7f8.png c6a8ac73-4053-4b0a-9e2d-e3688ded2466.png 9626eb71-ac4f-41c8-9a4f-e6bb1702ada9.png 87b96271-1dfc-4f30-9463-aef99a93ff3c.png

3.3.1 策略生命周期管理

策略列表展示已配置规则的「名称、监控目标数、创建者、执行时间、生效状态」,并提供:

  • 「生效开关」:一键启用/禁用策略;
  • 「编辑/删除」:调整规则或移除无效配置;
  • 「+添加」:点击进入创建策略向导,按4步完成新规则配置。

3.3.2 分步式创建策略向导

通过向导式表单,完成从“基础信息”到“通知配置”的全流程规则定义:

  1. 步骤1:基本信息配置

    • 策略名称:填写规则标识(如“主机CPU使用率过高”);
    • 告警名称:支持引用变量(如主机 ${metric_instance_id} CPU 使用率过高),实现不同实例的动态告警名称;
    • 组织:选择规则所属组织(默认选“Default”);
    • 目标:点击「+」选择要监控的资产(支持多选);
    • 检测频率:设置指标检测周期(如“5分钟/次”)。
  2. 步骤2:定义指标规则

    • 采集模板:选择对应采集插件(如“host”对应主机采集);
    • 指标:选择具体监控指标(如“cpu_summary.usage”对应CPU使用率);
    • 过滤器/组:通过维度(如instance_id)筛选/分组指标数据;
    • 汇聚方式:选择检测周期内的指标计算方式(如“MAX”取最大值);
    • 汇聚周期:设置指标数据的汇聚时间范围(如“5分钟”)。
  3. 步骤3:设置告警条件

    • 阈值设定:基于检测算法对指标数值设置条件(如严重级“≥90”、错误级“≥85”、警告级“≥80”);基于算法本身也可对获取不到数据的情况(如threshold/no_data)触发条件;
    • 全局无数据告警:支持独立于阈值条件配置策略级的“无数据告警(alert/no_data)”,当整个资源或采集项数据长时间未完整上报时触发,防止因采集插件假死造成的漏报风险;
    • 自动恢复:设置“连续N个周期不满足阈值时,告警自动恢复”(如“5个周期”)。
  4. 步骤4:配置通知

    • 开启/关闭「通知」开关,后续可绑定邮件、企业微信等渠道,实现告警触达。

完成4步配置后点击「确认」,策略将按检测频率自动运行,触发异常时生成告警。

3.4 模板库(事件页面“模板”标签页)

在“模板”子标签页下,可复用预置的告警规则模板,降低配置门槛。

9e3353eb-b6bb-4dc0-879d-1b75e7af7fb0.png dbed706c-bd70-4188-9023-eb32204c3d18.png c9f24719-7c8f-4ea4-a670-eb6c5dd29dd6.png 0b9cb782-413d-48b1-a19e-7ffd287e2bd7.png

核心能力

  • 预置主流模板:按资产类型分类,提供“主机CPU使用率过高、内存使用率过高”等核心场景模板;
  • 模板详情说明:每个模板标注“检测逻辑+风险提示”(如“主机CPU使用率过高:检测CPU是否超标,提示系统过载风险”);
  • 快速复用:基于模板可直接生成告警策略,无需重复配置基础规则。

4. 集成(Integration)

集成是监控数据采集的配置与管理中枢,通过“集成、资产、分组”三个子标签页,实现“采集模板接入-已接入资产管理-资源分组规则配置”的全流程采集管理,为监控场景提供稳定的数据来源支撑。

4.1 集成(采集模板接入)

06cf8615-c8c3-4944-9461-771dc7c182f2.png 9ff50478-b2a9-436b-b847-9349e811f393.png

核心能力

  • 预置全栈采集模板:提供覆盖“主机(Telegraf)、网站拨测、Ping、数据库(Elasticsearch/MySQL等)、中间件”的标准化采集模板。每个模板卡片会直观展示当前的状态(如是否已启用、是否开箱即用等)以及采集逻辑(如“主机模板:通过Telegraf采集CPU、内存、磁盘等数据”);
  • 灵活的接入口径(自动与手动):部分内置资源(如操作系统主机基础采集)支持全自动接入免配置,同时针对复杂对象提供向导式的模板手动接入流程。点击模板的「+接入」按钮,进入配置页完成3类核心配置:
    1. 选择采集指标(如Disk/CPU/Memory等);
    2. 设置监控对象(选择目标节点资产);
    3. 配置采集间隔(如10s); 完成后即可创建对应资产的采集任务;
  • 分类筛选模板:左侧导航栏按“操作系统/网络/数据库”维度分类,可快速定位目标类型的采集模板。

4.2 资产(已接入资源管理)

b85524f2-476c-4331-8ea8-747067f6bd0f.png 26e464dc9d7bf0a82bdd377a9509b62d.png fa8703c2922cc3d80a02124622cf2149.png 6ac66228d5b2bfec5db089e22d070bef.png

核心能力

  • 已接入资产概览:列表展示所有配置采集口径关联的资产对象,包含「资产名称、集成模板、所属组织」,左侧可按“主机/网站/数据库”等资产类型筛选;
  • 资产全生命周期操作:每个资产支持4类运维操作:
    • 「视图」:查看该资产的采集详情与监控图表基盘;
    • 「编辑」:修改资产的「实例名称、所属组织」;
    • 「配置」:调整采集目标的特定参数(如监控指标类型、目标IP、采集间隔);
    • 「删除」:移除无效的采集资产;
  • 采集状态监控:资产详情页展示单资产个体的「上报状态、最后上报时间」,实时确认该资产节点的数据采集链路是否正常贯通。

4.3 分组(资源分组规则配置)

150f8c3abef44ab730d6c4ccdfbf89e9.png 6d255288fc0814e1a236b50f6f91fdd3.png

核心能力

  • 资源逻辑分组管理:通过规则将同一类型口径下的散列资产,按“技术维度(如K8s/Pod、操作系统/主机)”或业务集群维度重新聚合。列表展示「规则名称、对象类型、规则描述、所属组织」;
  • 规则配置逻辑:创建/编辑规则时,可设置「匹配指标、条件(如instance_id = 3)、所属组织」,实现资产的自动归类;
  • 批量运维支撑:分组规则为后续“批量配置告警策略、批量查看监控数据”提供逻辑分组基础,减少重复操作、提升运维效率。