GPU Compute Plans
04 场景演算S0 production plan

02 · M1 机器 · 旗舰模型

02 · M1 机器 · 旗舰模型

定位

跑最大的模型,做差异化卖点

  • 单机 8×5090 = 256 GB 显存
  • 目标:跑 Qwen3-72B-Instruct FP8 TP=8DeepSeek-V2-236B FP8 TP=8(MoE 激活约 21B,超划算)
  • 高价定位:¥3/M in / ¥8/M out(对齐 GPT-4o-mini 中文版价位)

部署方案 A:Qwen3-72B FP8 TP=8

为什么先跑 72B

  • Qwen3-72B 中文能力顶尖,等同 GPT-4o 水准
  • FP8 单卡 24GB,8 卡 TP 显存足够(含 KV cache)
  • 客户对"跑得动 72B"有溢价预期

启动命令(vLLM 0.6.5+):

python -m vllm.entrypoints.openai.api_server \
  --model /models/Qwen3-72B-Instruct \
  --served-model-name qwen3-72b \
  --tensor-parallel-size 8 \
  --dtype float8_e4m3fn \
  --max-model-len 32768 \
  --gpu-memory-utilization 0.90 \
  --enable-prefix-caching \
  --max-num-batched-tokens 16384 \
  --max-num-seqs 128 \
  --port 8001 \
  --host 0.0.0.0 \
  --api-key sk-YOUR-INTERNAL-KEY \
  --enable-chunked-prefill

关键参数

  • tensor-parallel-size 8:8 卡张量并行
  • float8_e4m3fn:Blackwell 原生 FP8
  • enable-prefix-caching:多轮对话/系统提示复用
  • enable-chunked-prefill:长上下文场景 TTFT 更好
  • max-num-seqs 128:并发上限(够单机跑生产)

性能预估(基于 Blackwell 官方基准 + vLLM benchmark 推算):

  • TTFT p99:< 800ms(4K prompt 场景)
  • 单卡 TPS:~150 tok/s
  • 整机 TPS:~1200 tok/s(TP=8 会有 collective 开销)
  • 单副本并发:稳定 ~50-80

月理论满载营收

  • 整机 TPS ~1200 tok/s → output 约 31 亿 tokens / 月,input 按 3-5× 估算后总量约 120-155 亿 tokens / 月
  • 按 output ¥8/M、input ¥3/M 计算,月营收约 5.3-7.1 万/月

部署方案 B:DeepSeek-V2-236B FP8 TP=8

为什么可以选 DeepSeek

  • MoE 架构激活参数只 21B,推理速度极快
  • 236B 名头唬人,客户对"跑满血"有预期
  • FP8 236B 权重约 240GB,8 卡刚够

启动命令

python -m vllm.entrypoints.openai.api_server \
  --model /models/DeepSeek-V2-Chat \
  --served-model-name deepseek-v2 \
  --tensor-parallel-size 8 \
  --dtype float8_e4m3fn \
  --max-model-len 32768 \
  --gpu-memory-utilization 0.92 \
  --enable-prefix-caching \
  --max-num-batched-tokens 16384 \
  --max-num-seqs 96 \
  --trust-remote-code \
  --port 8001 \
  --api-key sk-YOUR-INTERNAL-KEY

注意

  • DeepSeek MoE 需要 --trust-remote-code
  • Max num seqs 略低(MoE 显存更吃紧)
  • 权重占用 240GB,KV cache 空间会小

性能预估

  • TTFT p99:< 1s(MoE 激活参数少,速度快)
  • 单卡 TPS:~180 tok/s(MoE 优势)
  • 整机 TPS:~1400 tok/s
  • 月理论满载:约 36 亿 tokens output

部署方案 C:两个 34-40B 副本 TP=4

如果 72B / 236B 客户量起不来,可以拆成两个副本:

Qwen2.5-32B AWQ TP=4 × 2 副本:

  • 每副本 4 卡,两副本可各服务不同客户
  • Qwen2.5-32B AWQ INT4 单卡约 20GB,4 卡足够
  • 双副本并发翻倍,适合中端 API

启动 4 卡副本 A(GPU 0-3):

CUDA_VISIBLE_DEVICES=0,1,2,3 python -m vllm.entrypoints.openai.api_server \
  --model /models/Qwen2.5-32B-Instruct-AWQ \
  --served-model-name qwen2.5-32b \
  --tensor-parallel-size 4 \
  --quantization awq \
  --max-model-len 16384 \
  --gpu-memory-utilization 0.90 \
  --enable-prefix-caching \
  --port 8001

启动 4 卡副本 B(GPU 4-7):

CUDA_VISIBLE_DEVICES=4,5,6,7 python -m vllm.entrypoints.openai.api_server \
  --model /models/Qwen2.5-32B-Instruct-AWQ \
  --served-model-name qwen2.5-32b-b \
  --tensor-parallel-size 4 \
  --quantization awq \
  --max-model-len 16384 \
  --gpu-memory-utilization 0.90 \
  --enable-prefix-caching \
  --port 8002

推荐

8 周 MVP 阶段:先跑方案 C(Qwen2.5-32B AWQ × 2 副本)

  • 32B 已经能覆盖 90% 客户需求
  • AWQ 稳定性高于 FP8 早期版本
  • 两副本冗余,一个崩不影响另一个

验证有客户后(3-6 月):切换到方案 A(Qwen3-72B FP8)

  • 差异化卖点更强
  • 客户已经付费,可以承受更高单价

M1 长期定位:跑集群里"最贵的模型",卖差异化。

监控

  • 端口 8001(+8002 如方案 C)
  • Prometheus scrape /metrics
  • 关键告警:
    • GPU 温度 > 87°C
    • 显存占用 > 95%
    • Request queue 积压 > 100
    • TTFT p99 > 2s

systemd 服务化

创建 /etc/systemd/system/vllm-m1.service

[Unit]
Description=vLLM M1 Flagship
After=network.target

[Service]
Type=simple
User=ubuntu
WorkingDirectory=/home/ubuntu
ExecStart=/home/ubuntu/miniconda3/envs/vllm/bin/python -m vllm.entrypoints.openai.api_server \
  --model /models/Qwen2.5-32B-Instruct-AWQ \
  --served-model-name qwen2.5-32b \
  --tensor-parallel-size 8 \
  --quantization awq \
  --max-model-len 16384 \
  --enable-prefix-caching \
  --port 8001
Restart=on-failure
RestartSec=30

[Install]
WantedBy=multi-user.target

启动:

  • systemctl enable vllm-m1
  • systemctl start vllm-m1
  • journalctl -u vllm-m1 -f 看日志

客户看到的 API

Client → https://api.your-domain.com/v1/chat/completions

{
  "model": "qwen2.5-32b",
  "messages": [{"role": "user", "content": "你好"}]
}

网关(见 07-tech-stack.md)路由到 M1 端口 8001。

On this page