GPU Compute Plans
04 场景演算S0 production plan

05 · M4 机器 · 基准测试专用

05 · M4 机器 · 基准测试专用

定位

永远不上生产。专门跑各种性能/引擎/量化对比测试,为万卡决策采数据

  • 单机 8×5090
  • 不接客户流量
  • 每天跑 3-5 个测试组合
  • 8 周内完成 500+ 数据点

8 周测试计划

参考 S0-benchmark-cookbook.md,M4 是那个 cookbook 的执行主机。

关键测试目标

回答 8 个问题

  1. 哪些模型的单 token 成本最低?
  2. vLLM vs SGLang vs TRT-LLM 谁快?
  3. FP8 vs AWQ vs FP16 精度损失多少?
  4. 单卡最优并发是多少?
  5. KV Cache 命中率对成本影响?
  6. 72h 稳定性数据?
  7. 长上下文(32K-128K)性能?
  8. 万卡预测:这些数据推到 H100/H200 是什么样?

每周测试重点

W1:环境搭建

  • 装 Blackwell driver 565 + CUDA 12.6
  • vLLM 0.6.5 + SGLang 0.3.7 + TRT-LLM 0.14 + LMDeploy 0.5
  • 下载 15 个候选模型
  • 装 LLMPerf + lm-evaluation-harness
  • Prometheus + DCGM Exporter 采数据

W2:基线测试

  • Qwen2.5-14B FP16 单卡 vLLM 跑通
  • 8 卡并发压测(LLMPerf)
  • 采集 TTFT / TPOT / GPU 温度 / 功耗
  • 出第一份初始报告

W3:模型横评(FP16 基线)

  • 每个模型 × vLLM 跑一遍
  • 固定参数:1/16/64 并发 × 512in/512out
  • 每模型 ~15 个数据点

W4:量化横评

  • 同一模型跑 FP16 / FP8 / AWQ / GPTQ
  • 精度测试(lm-eval MMLU / C-Eval / HumanEval)
  • 出量化收益 vs 精度损失表

W5:引擎横评

  • 同一模型跑 vLLM / SGLang / TRT-LLM / LMDeploy
  • 相同硬件配置
  • 关注长上下文 SGLang 的 RadixAttention 表现

W6:长上下文 + 视觉专项

  • Qwen2.5 系列 32K / 64K 上下文测试
  • Qwen2-VL 视觉推理
  • YARN 上下文外推是否可用

W7:稳定性 & 压力测试

  • 选 1-2 个"最有希望上生产"的配置
  • 连续 72h 跑
  • 每 5s 记录一次 GPU 温度 / 功耗 / 显存
  • 崩溃次数 / OOM / 显存 fragmentation

W8:数据分析 + 报告

  • 全部结果入库(ClickHouse 或 CSV + Pandas)
  • 生成 6 份报告:
    • top_models.md:性价比排名
    • engines_comparison.md:引擎横评
    • quantization_analysis.md:量化分析
    • stability_report.md:稳定性
    • long_context_report.md:长上下文
    • wanka_decision.md:万卡决策(核心输出)

测试自动化框架

核心脚本run_bench.sh(见 S0-benchmark-cookbook.md

M4 上部署一个 tmux session,自动跑测试队列:

# /opt/bench-queue.txt 里写测试任务
# 每行一个任务:MODEL,ENGINE,DTYPE,CONCURRENCY,INPUT_LEN,OUTPUT_LEN

# 队列执行器
while IFS=',' read -r MODEL ENGINE DTYPE C IN OUT; do
    bash /opt/run_bench.sh "$MODEL" "$ENGINE" "$DTYPE" "$C" "$IN" "$OUT"
    echo "Done: $MODEL/$ENGINE/$DTYPE/c$C" >> /var/log/bench-progress.log
    sleep 60
done < /opt/bench-queue.txt

后台跑 tmux/screen,每晚看进度。

数据入库

方案 A:直接写 CSV,用 pandas 分析

  • 每次测试后追加一行到 results.csv
  • 简单直接,8 周 500 条数据 pandas 完全 handle

方案 B:ClickHouse

  • 更专业,支持大规模数据
  • 便于 SQL 查询和可视化
  • 8 周规模用不上,但为将来准备

推荐方案 A,1000 行以下 pandas 就够。

硬件监控

M4 独立跑 Prometheus + Grafana,专门存基准测试的实时指标:

  • 每次测试前后打快照
  • 记录到 CSV
  • 后续做时间序列分析

一个可选:给客户看的"性能仪表盘"

M4 的数据可以做一个公开的仪表盘:

  • 客户在选模型时看到"实测 TPS / TTFT / 每 M token 成本"
  • 差异化卖点(其他 MaaS 不敢公开)
  • 增加信任

注意:公开数据前把敏感数据(硬件成本细节)过滤掉。

建议

M4 是项目方万卡决策最重要的一台机,务必:

  1. 保持独立:不给客户用,别为了短期收入牺牲测试进度
  2. 测试要多样:别只测最优组合,最差组合也要测(提前排雷)
  3. 数据要严格:每次记录完整环境(driver / CUDA / vLLM 版本 / seed)
  4. 稳定性不能省:72h 测试如果没跑,万卡阶段掉大坑
  5. 报告需通俗易懂:给项目方和投资人看的报告,不能全是术语

8 周结束后,M4 可以:

  • 继续跑新模型评估(每月新模型 24 小时内测完)
  • 或转生产(如果客户量爆炸)
  • 或用于客户 POC 演示

关键交付物

wanka_decision.md 应该长这样(骨架):

# 万卡采购决策报告(基于 40 卡 5090 基准测试)

## Top 5 推荐模型
1. Qwen2.5-32B AWQ - 单卡 $X/M token
2. DeepSeek-V2-Lite - 单卡 $X/M token
3. ...

## 推荐引擎组合
- vLLM 70%(覆盖通用)
- SGLang 20%(覆盖长上下文)
- TRT-LLM 10%(覆盖低延迟)

## 推荐量化档位
- FP8(Blackwell 原生,推荐)
- AWQ(备胎,精度损失小)

## 万卡投资预估
- 卡型:H200 SXM
- 单卡月成本:$8,000
- 单卡目标月毛利:$5,000-7,000
- 万卡月毛利:$50-70M
- 5 年回本

## 关键风险
- 5090 vs H200 性能比不是线性外推
- 消费卡 vs 数据中心卡稳定性差异
- 需要 100 卡 H100 集群做二阶段验证

这份报告 = 项目方的下一轮融资 pitch 核心资料

On this page