Appearance
text
# Related Code
- `dai_bench/cli/run.py`
- `dai_bench/core/launch.py`
- `dai_bench/logging.py`
- `examples/local/`
- `examples/k8s-serve/`运维手册
运行前检查
bench.yaml/serve.yaml是否存在于experiments/<id>/treatment/run.sh/stop.sh是否可执行ready_check_url是否可访问(默认/health)- 输出目录是否可写
运行中检查
- 观察日志等级与错误信息(建议 DEBUG)
- Server Mode 是否卡在 readiness 阶段
- 结果目录是否持续生成 stage 文件
运行后检查
results/<experiment>/是否包含 JSON 与benchmark_report_*.yaml- 若结果为空,确认
--dry-run是否被开启
常见故障流程
- 找不到项目:确保在项目目录执行或传入
--project与--output-dir - 服务未就绪:检查
/health或自定义ready_check_url,确认服务已启动 - K8s 启动失败:确认
label_selector与 RBAC 配置 - 结果缺失:确认
bench.yaml是否被覆盖、模型名称是否为空