跳到主要内容

产品介绍

1. 产品简介

作业管理(Job Management)是一款面向 IT 基础设施自动化运维的核心控制平台。它通过统一的任务下发渠道,为运维人员提供支持批量脚本执行、自动化文件分发、Playbook 编排与定时调度的强大能力。系统同时支持传统 Agent 纳管模式轻量级无 Agent (Ansible) 模式,帮助企业在保障安全合规的前提下,大幅提升批量运维操作的执行效率并降低业务风险。

2. 核心优势

  • 双引擎驱动架构:支持在已安装控制器的节点通过 Agent 实现高速并发执行,同时也支持对无 Agent 节点通过 Ansible 协议直接下发处理。两套引擎对用户层屏蔽差异,满足不同安全级别与网络环境的纳管要求。
  • 安全合规的执行通道:系统通过正则表达式与路径白名单双重校验,从下发源头阻断违规破坏性操作,保证每一个批量命令和文件分发均处于安全授权框定内。
  • 统一丰富的资源沉淀:不仅支持临时命令的即插即用,还内置标准化的「脚本库」与「Playbook 库」,支持脚本的多版本管控与上线流转,便于企业持续沉淀与复用运维资产。
  • 所见即所得的追踪闭环:任务触发后生成全局唯一的追踪流水信息。运维人员可通过直观的详情界面,向下穿透剖析每一台主机的标准输出 (Stdout) 与退出码 (Exit Code),故障排查直观精准。
  • 统一作业底座,对外开放复用:除控制台独立使用外,作业管理通过 NATS 消息通道对外开放脚本执行、文件分发、作业取消、状态批量查询、详情查询、目标列表查询等接口能力,可作为平台统一的作业执行底座,供其它应用(如补丁管理)调用;并提供基于 HTTP 的文件上传/删除 REST 接口,以及任务完成后的异步回调通知机制(指数退避重试,最多 5 次)。

3. 应用场景

  • 应用批量发布与部署:结合「文件分发」和「Playbook 库」能力,将业务更新后的制品架构批量投递到指定的业务集群节点,并自动拉起服务、进行预热与自测。
  • 系统异常应急恢复:面临告警系统抛出的网络满载或负载飙升危机情况,运维值班人员能利用「快速执行」入口加载应急脚本,火速将临时降级、诊断隔离命令打向被波及的集群。
  • 全局自动化资产巡检:诸如僵尸进程度量、业务过期日志清理、磁盘空间探测等高度重复的日常运维动作,可打包固化于「脚本库」,并结合「定时任务」形成自动化例行巡检与自我愈合的闭环。