跳到主要内容

快速入门

本文将指导您从零开始，在 MLOps 模块中以“异常检测”等基础算法场景为例，走通一条“准备数据集 -> 开启模型训练 -> 上线发布服务 -> 在线推理调用”的核心大满贯链路。

前置条件

您已经拥有 BK-Lite 的访问账户并且授予了 MLOps 资源的管理视图相关权限，且您的账户已归属于至少一个组织（team）。
提前准备好了一份能够用于该算法场景的测试数据集（例如一批指标形态的结构化 CSV 原文件等，符合选定特征的数据集文件即可）。
部署侧已完成 MLOps 算法配置初始化（运行 init_algorithm_config 管理命令），否则「新建训练任务」时将无算法可选。

分步操作指引

1. 挂载数据底座 (数据集管理)

模型的效果好坏强赖于前期的”喂养”。

登录系统进入 MLOps，在平台左上角”场景下拉框”中选择您的目标算法场景（例如：异常检测 或 图片分类）。
前往左侧导航栏的「数据集」菜单，点击「新建数据集」，输入基本信息并选择所属组织后确认建立。
点击新创建的数据集详情，将您的原始样本文件批量上传，并为每条样本标记对应的用途：训练数据、验证数据 或 测试数据（三者可复合，不互斥）。
样本划分完毕后，点击「发布版本」，为此时间截面上的数据打一个用于挂载的基线版本（如 V1），版本状态流转至「已发布」后方可用于训练任务挂载。若需暂时下线某个历史版本，可对其执行「归档」操作；若需恢复，执行「恢复归档」即可。

2. 调度与生成模型 (训练任务管理)

组装刚打好的数据基线和系统底层算法开始让机器自动总结规律。

回到左侧菜单，进入「训练任务」区域并点击「新建任务」。
在任务配置界面的弹窗内，核心只需挂载两项内容：① 您在步骤 1 中发布的「数据集版本」；② 希望使用的算法（来自当前场景的算法配置列表）及其超参数表单。
点击保存后，任务将处于「待训练」状态，且超参数配置会自动同步至 MinIO 生成训练配置文件。此时点击「启动训练」按钮，平台会通过 webhookd 拉起训练容器，并由后台 Celery 任务每 30 秒轮询 MLflow 追踪训练进度。
在实际训练过程中（处于「训练中」），您可以进入任务详情查看运行历史列表，点击某条 run 即可查看其指标历史曲线与运行参数面板。若当前训练效果不理想，可点击「停止训练」中断当前 run（任务状态回到待训练），修改配置后重新启动。
训练完成后，任务状态变为「已完成」，您可在 run 历史中点击「下载模型」，将对应 run 的 artifact 打包为 ZIP 下载到本地（用于离线分析或外部部署）。

3. 构建可消费的黑盒能力 (能力发布)

模型只要变为在线接口或测试窗后，其业务价值才得以外溢。

当训练任务状态变更为「已完成」后，点击左侧「能力发布」并选择「新建服务」。
在弹框中指定刚刚跑好的那份「训练任务」及其孵化出的「模型版本号」（latest 表示使用最新注册版本，或填入具体版本号如 1、2）。也可选填「服务端口」，留空则由 docker 自动分配。
保存后系统自动调用 webhookd 拉起推理容器，正常情况下服务创建即启动，无需额外操作。若需更换模型版本或端口配置，更新服务记录时若容器正在运行，平台会自动重启容器使变更生效。
若需临时释放资源，点击「停止」可删除容器（服务记录保留）；需彻底清除时点击「移除」可强制删除运行中的容器；需同时删除记录则直接执行「删除」（平台会先清理容器）。

结果验证与闭环

成功拉起容器（即服务状态展示为 Active/已启动 ）后，请不要急着离开网页：

直接在能力发布栏找到您上线的那条规则，点击「在线推理」按钮。
在弹出的可视化交互窗中，传入您准备的一条从未给模型投喂过的全新数据或本地测试图片，点击提交。
观察下方的模型吐出结果（推理响应区），判断它的识别打标是否准确。
业务闭环建议：当推理质量达到您的验收预期后，您的相关客户端系统或内部运维模块，就可以对接本服务所公示的统一 API 以便进行全自动的高频识别调用工作了。如果效果欠佳，请返回「数据集管理」环节补充您的特殊案例数据，重新发布 V2 版并进行新一轮的迭代训练。

前置条件
分步操作指引
结果验证与闭环