用例准备完成后,您可以随时启动评测任务,对当前 AI 模型进行验证。
1. 启动评测任务
- 在评测集详情页(如:
评测集A),确认用例已添加。
- 点击页面右上角的 【开始评测】 按钮。
2. 评测运行中
- 任务启动后,页面将进入评测详情页,显示 "正在进行评测..." 的状态。
- 左侧的评测用例详情会显示用例的状态,例如 进行中。
- 您可以查看本次评测所使用的 模型名称 及 模型参数(如:
qwenv2-32b > glm-4-8)。
- 在评测完成前,成功率将显示为 0%。
3. 评测完成
评测完成后,系统将计算最终的成功率,并生成评测报告。