04 场景演算S0 production plan
05 · M4 机器 · 基准测试专用
05 · M4 机器 · 基准测试专用
定位
永远不上生产。专门跑各种性能/引擎/量化对比测试,为万卡决策采数据。
- 单机 8×5090
- 不接客户流量
- 每天跑 3-5 个测试组合
- 8 周内完成 500+ 数据点
8 周测试计划
参考 S0-benchmark-cookbook.md,M4 是那个 cookbook 的执行主机。
关键测试目标
回答 8 个问题:
- 哪些模型的单 token 成本最低?
- vLLM vs SGLang vs TRT-LLM 谁快?
- FP8 vs AWQ vs FP16 精度损失多少?
- 单卡最优并发是多少?
- KV Cache 命中率对成本影响?
- 72h 稳定性数据?
- 长上下文(32K-128K)性能?
- 万卡预测:这些数据推到 H100/H200 是什么样?
每周测试重点
W1:环境搭建
- 装 Blackwell driver 565 + CUDA 12.6
- vLLM 0.6.5 + SGLang 0.3.7 + TRT-LLM 0.14 + LMDeploy 0.5
- 下载 15 个候选模型
- 装 LLMPerf + lm-evaluation-harness
- Prometheus + DCGM Exporter 采数据
W2:基线测试
- Qwen2.5-14B FP16 单卡 vLLM 跑通
- 8 卡并发压测(LLMPerf)
- 采集 TTFT / TPOT / GPU 温度 / 功耗
- 出第一份初始报告
W3:模型横评(FP16 基线)
- 每个模型 × vLLM 跑一遍
- 固定参数:1/16/64 并发 × 512in/512out
- 每模型 ~15 个数据点
W4:量化横评
- 同一模型跑 FP16 / FP8 / AWQ / GPTQ
- 精度测试(lm-eval MMLU / C-Eval / HumanEval)
- 出量化收益 vs 精度损失表
W5:引擎横评
- 同一模型跑 vLLM / SGLang / TRT-LLM / LMDeploy
- 相同硬件配置
- 关注长上下文 SGLang 的 RadixAttention 表现
W6:长上下文 + 视觉专项
- Qwen2.5 系列 32K / 64K 上下文测试
- Qwen2-VL 视觉推理
- YARN 上下文外推是否可用
W7:稳定性 & 压力测试
- 选 1-2 个"最有希望上生产"的配置
- 连续 72h 跑
- 每 5s 记录一次 GPU 温度 / 功耗 / 显存
- 崩溃次数 / OOM / 显存 fragmentation
W8:数据分析 + 报告
- 全部结果入库(ClickHouse 或 CSV + Pandas)
- 生成 6 份报告:
top_models.md:性价比排名engines_comparison.md:引擎横评quantization_analysis.md:量化分析stability_report.md:稳定性long_context_report.md:长上下文wanka_decision.md:万卡决策(核心输出)
测试自动化框架
核心脚本:run_bench.sh(见 S0-benchmark-cookbook.md)
M4 上部署一个 tmux session,自动跑测试队列:
# /opt/bench-queue.txt 里写测试任务
# 每行一个任务:MODEL,ENGINE,DTYPE,CONCURRENCY,INPUT_LEN,OUTPUT_LEN
# 队列执行器
while IFS=',' read -r MODEL ENGINE DTYPE C IN OUT; do
bash /opt/run_bench.sh "$MODEL" "$ENGINE" "$DTYPE" "$C" "$IN" "$OUT"
echo "Done: $MODEL/$ENGINE/$DTYPE/c$C" >> /var/log/bench-progress.log
sleep 60
done < /opt/bench-queue.txt后台跑 tmux/screen,每晚看进度。
数据入库
方案 A:直接写 CSV,用 pandas 分析
- 每次测试后追加一行到
results.csv - 简单直接,8 周 500 条数据 pandas 完全 handle
方案 B:ClickHouse
- 更专业,支持大规模数据
- 便于 SQL 查询和可视化
- 8 周规模用不上,但为将来准备
推荐方案 A,1000 行以下 pandas 就够。
硬件监控
M4 独立跑 Prometheus + Grafana,专门存基准测试的实时指标:
- 每次测试前后打快照
- 记录到 CSV
- 后续做时间序列分析
一个可选:给客户看的"性能仪表盘"
M4 的数据可以做一个公开的仪表盘:
- 客户在选模型时看到"实测 TPS / TTFT / 每 M token 成本"
- 差异化卖点(其他 MaaS 不敢公开)
- 增加信任
注意:公开数据前把敏感数据(硬件成本细节)过滤掉。
建议
M4 是项目方万卡决策最重要的一台机,务必:
- 保持独立:不给客户用,别为了短期收入牺牲测试进度
- 测试要多样:别只测最优组合,最差组合也要测(提前排雷)
- 数据要严格:每次记录完整环境(driver / CUDA / vLLM 版本 / seed)
- 稳定性不能省:72h 测试如果没跑,万卡阶段掉大坑
- 报告需通俗易懂:给项目方和投资人看的报告,不能全是术语
8 周结束后,M4 可以:
- 继续跑新模型评估(每月新模型 24 小时内测完)
- 或转生产(如果客户量爆炸)
- 或用于客户 POC 演示
关键交付物
wanka_decision.md 应该长这样(骨架):
# 万卡采购决策报告(基于 40 卡 5090 基准测试)
## Top 5 推荐模型
1. Qwen2.5-32B AWQ - 单卡 $X/M token
2. DeepSeek-V2-Lite - 单卡 $X/M token
3. ...
## 推荐引擎组合
- vLLM 70%(覆盖通用)
- SGLang 20%(覆盖长上下文)
- TRT-LLM 10%(覆盖低延迟)
## 推荐量化档位
- FP8(Blackwell 原生,推荐)
- AWQ(备胎,精度损失小)
## 万卡投资预估
- 卡型:H200 SXM
- 单卡月成本:$8,000
- 单卡目标月毛利:$5,000-7,000
- 万卡月毛利:$50-70M
- 5 年回本
## 关键风险
- 5090 vs H200 性能比不是线性外推
- 消费卡 vs 数据中心卡稳定性差异
- 需要 100 卡 H100 集群做二阶段验证这份报告 = 项目方的下一轮融资 pitch 核心资料。