全部结果入库（ClickHouse 或 CSV + Pandas）
生成 6 份报告：
- top_models.md：性价比排名
- engines_comparison.md：引擎横评
- quantization_analysis.md：量化分析
- stability_report.md：稳定性
- long_context_report.md：长上下文
- wanka_decision.md：万卡决策（核心输出）

测试自动化框架

核心脚本：run_bench.sh（见 S0-benchmark-cookbook.md）

M4 上部署一个 tmux session，自动跑测试队列：

# /opt/bench-queue.txt 里写测试任务
# 每行一个任务：MODEL,ENGINE,DTYPE,CONCURRENCY,INPUT_LEN,OUTPUT_LEN

# 队列执行器
while IFS=',' read -r MODEL ENGINE DTYPE C IN OUT; do
    bash /opt/run_bench.sh "$MODEL" "$ENGINE" "$DTYPE" "$C" "$IN" "$OUT"
    echo "Done: $MODEL/$ENGINE/$DTYPE/c$C" >> /var/log/bench-progress.log
    sleep 60
done < /opt/bench-queue.txt

后台跑 tmux/screen，每晚看进度。

数据入库

方案 A：直接写 CSV，用 pandas 分析

每次测试后追加一行到 results.csv
简单直接，8 周 500 条数据 pandas 完全 handle

方案 B：ClickHouse

更专业，支持大规模数据
便于 SQL 查询和可视化
8 周规模用不上，但为将来准备

推荐方案 A，1000 行以下 pandas 就够。

硬件监控

M4 独立跑 Prometheus + Grafana，专门存基准测试的实时指标：

每次测试前后打快照
记录到 CSV
后续做时间序列分析

一个可选：给客户看的"性能仪表盘"

M4 的数据可以做一个公开的仪表盘：

客户在选模型时看到"实测 TPS / TTFT / 每 M token 成本"
差异化卖点（其他 MaaS 不敢公开）
增加信任

注意：公开数据前把敏感数据（硬件成本细节）过滤掉。

建议

M4 是项目方万卡决策最重要的一台机，务必：

保持独立：不给客户用，别为了短期收入牺牲测试进度
测试要多样：别只测最优组合，最差组合也要测（提前排雷）
数据要严格：每次记录完整环境（driver / CUDA / vLLM 版本 / seed）
稳定性不能省：72h 测试如果没跑，万卡阶段掉大坑
报告需通俗易懂：给项目方和投资人看的报告，不能全是术语

8 周结束后，M4 可以：

继续跑新模型评估（每月新模型 24 小时内测完）
或转生产（如果客户量爆炸）
或用于客户 POC 演示

关键交付物

wanka_decision.md 应该长这样（骨架）：

# 万卡采购决策报告（基于 40 卡 5090 基准测试）

## Top 5 推荐模型
1. Qwen2.5-32B AWQ - 单卡 $X/M token
2. DeepSeek-V2-Lite - 单卡 $X/M token
3. ...

## 推荐引擎组合
- vLLM 70%（覆盖通用）
- SGLang 20%（覆盖长上下文）
- TRT-LLM 10%（覆盖低延迟）

## 推荐量化档位
- FP8（Blackwell 原生，推荐）
- AWQ（备胎，精度损失小）

## 万卡投资预估
- 卡型：H200 SXM
- 单卡月成本：$8,000
- 单卡目标月毛利：$5,000-7,000
- 万卡月毛利：$50-70M
- 5 年回本

## 关键风险
- 5090 vs H200 性能比不是线性外推
- 消费卡 vs 数据中心卡稳定性差异
- 需要 100 卡 H100 集群做二阶段验证

这份报告 = 项目方的下一轮融资 pitch 核心资料。

05 · M4 机器 · 基准测试专用

On this page