Skip to content
text
# Related Code
- `dai_bench/cli/run.py`
- `dai_bench/core/launch.py`
- `dai_bench/logging.py`
- `examples/local/`
- `examples/k8s-serve/`

运维手册

运行前检查

  • bench.yaml / serve.yaml 是否存在于 experiments/<id>/treatment/
  • run.sh / stop.sh 是否可执行
  • ready_check_url 是否可访问(默认 /health
  • 输出目录是否可写

运行中检查

  • 观察日志等级与错误信息(建议 DEBUG)
  • Server Mode 是否卡在 readiness 阶段
  • 结果目录是否持续生成 stage 文件

运行后检查

  • results/<experiment>/ 是否包含 JSON 与 benchmark_report_*.yaml
  • 若结果为空,确认 --dry-run 是否被开启

常见故障流程

  1. 找不到项目:确保在项目目录执行或传入 --project--output-dir
  2. 服务未就绪:检查 /health 或自定义 ready_check_url,确认服务已启动
  3. K8s 启动失败:确认 label_selector 与 RBAC 配置
  4. 结果缺失:确认 bench.yaml 是否被覆盖、模型名称是否为空