跳到主要内容

快速入门

本文将指导您从零开始,在 MLOps 模块中以“异常检测”等基础算法场景为例,走通一条“准备数据集 -> 开启模型训练 -> 上线发布服务 -> 在线推理调用”的核心大满贯链路。

前置条件

  • 您已经拥有 BK-Lite 的访问账户并且授予了 MLOps 资源的管理视图相关权限,且您的账户已归属于至少一个组织(team)。
  • 提前准备好了一份能够用于该算法场景的测试数据集(例如一批指标形态的结构化 CSV 原文件等,符合选定特征的数据集文件即可)。
  • 部署侧已完成 MLOps 算法配置初始化(运行 init_algorithm_config 管理命令),否则「新建训练任务」时将无算法可选。

分步操作指引

1. 挂载数据底座 (数据集管理)

模型的效果好坏强赖于前期的”喂养”。

  1. 登录系统进入 MLOps,在平台左上角”场景下拉框”中选择您的目标算法场景(例如:异常检测图片分类)。
  2. 前往左侧导航栏的「数据集」菜单,点击「新建数据集」,输入基本信息并选择所属组织后确认建立。
  3. 点击新创建的数据集详情,将您的原始样本文件批量上传,并为每条样本标记对应的用途:训练数据验证数据测试数据(三者可复合,不互斥)。
  4. 样本划分完毕后,点击「发布版本」,为此时间截面上的数据打一个用于挂载的基线版本(如 V1),版本状态流转至「已发布」后方可用于训练任务挂载。若需暂时下线某个历史版本,可对其执行「归档」操作;若需恢复,执行「恢复归档」即可。

2. 调度与生成模型 (训练任务管理)

组装刚打好的数据基线和系统底层算法开始让机器自动总结规律。

  1. 回到左侧菜单,进入「训练任务」区域并点击「新建任务」。
  2. 在任务配置界面的弹窗内,核心只需挂载两项内容:① 您在步骤 1 中发布的「数据集版本」;② 希望使用的算法(来自当前场景的算法配置列表)及其超参数表单。
  3. 点击保存后,任务将处于「待训练」状态,且超参数配置会自动同步至 MinIO 生成训练配置文件。此时点击「启动训练」按钮,平台会通过 webhookd 拉起训练容器,并由后台 Celery 任务每 30 秒轮询 MLflow 追踪训练进度。
  4. 在实际训练过程中(处于「训练中」),您可以进入任务详情查看运行历史列表,点击某条 run 即可查看其指标历史曲线运行参数面板。若当前训练效果不理想,可点击「停止训练」中断当前 run(任务状态回到待训练),修改配置后重新启动。
  5. 训练完成后,任务状态变为「已完成」,您可在 run 历史中点击「下载模型」,将对应 run 的 artifact 打包为 ZIP 下载到本地(用于离线分析或外部部署)。

3. 构建可消费的黑盒能力 (能力发布)

模型只要变为在线接口或测试窗后,其业务价值才得以外溢。

  1. 当训练任务状态变更为「已完成」后,点击左侧「能力发布」并选择「新建服务」。
  2. 在弹框中指定刚刚跑好的那份「训练任务」及其孵化出的「模型版本号」(latest 表示使用最新注册版本,或填入具体版本号如 12)。也可选填「服务端口」,留空则由 docker 自动分配。
  3. 保存后系统自动调用 webhookd 拉起推理容器,正常情况下服务创建即启动,无需额外操作。若需更换模型版本或端口配置,更新服务记录时若容器正在运行,平台会自动重启容器使变更生效。
  4. 若需临时释放资源,点击「停止」可删除容器(服务记录保留);需彻底清除时点击「移除」可强制删除运行中的容器;需同时删除记录则直接执行「删除」(平台会先清理容器)。

结果验证与闭环

成功拉起容器(即服务状态展示为 Active/已启动 )后,请不要急着离开网页:

  1. 直接在能力发布栏找到您上线的那条规则,点击「在线推理」按钮。
  2. 在弹出的可视化交互窗中,传入您准备的一条从未给模型投喂过的全新数据或本地测试图片,点击提交。
  3. 观察下方的模型吐出结果(推理响应区),判断它的识别打标是否准确。
  4. 业务闭环建议:当推理质量达到您的验收预期后,您的相关客户端系统或内部运维模块,就可以对接本服务所公示的统一 API 以便进行全自动的高频识别调用工作了。如果效果欠佳,请返回「数据集管理」环节补充您的特殊案例数据,重新发布 V2 版并进行新一轮的迭代训练。