04 场景演算S0 production plan
02 · M1 机器 · 旗舰模型
02 · M1 机器 · 旗舰模型
定位
跑最大的模型,做差异化卖点。
- 单机 8×5090 = 256 GB 显存
- 目标:跑 Qwen3-72B-Instruct FP8 TP=8 或 DeepSeek-V2-236B FP8 TP=8(MoE 激活约 21B,超划算)
- 高价定位:¥3/M in / ¥8/M out(对齐 GPT-4o-mini 中文版价位)
部署方案 A:Qwen3-72B FP8 TP=8
为什么先跑 72B:
- Qwen3-72B 中文能力顶尖,等同 GPT-4o 水准
- FP8 单卡 24GB,8 卡 TP 显存足够(含 KV cache)
- 客户对"跑得动 72B"有溢价预期
启动命令(vLLM 0.6.5+):
python -m vllm.entrypoints.openai.api_server \
--model /models/Qwen3-72B-Instruct \
--served-model-name qwen3-72b \
--tensor-parallel-size 8 \
--dtype float8_e4m3fn \
--max-model-len 32768 \
--gpu-memory-utilization 0.90 \
--enable-prefix-caching \
--max-num-batched-tokens 16384 \
--max-num-seqs 128 \
--port 8001 \
--host 0.0.0.0 \
--api-key sk-YOUR-INTERNAL-KEY \
--enable-chunked-prefill关键参数:
tensor-parallel-size 8:8 卡张量并行float8_e4m3fn:Blackwell 原生 FP8enable-prefix-caching:多轮对话/系统提示复用enable-chunked-prefill:长上下文场景 TTFT 更好max-num-seqs 128:并发上限(够单机跑生产)
性能预估(基于 Blackwell 官方基准 + vLLM benchmark 推算):
- TTFT p99:< 800ms(4K prompt 场景)
- 单卡 TPS:~150 tok/s
- 整机 TPS:~1200 tok/s(TP=8 会有 collective 开销)
- 单副本并发:稳定 ~50-80
月理论满载营收:
- 整机 TPS ~1200 tok/s → output 约 31 亿 tokens / 月,input 按 3-5× 估算后总量约 120-155 亿 tokens / 月
- 按 output ¥8/M、input ¥3/M 计算,月营收约 5.3-7.1 万/月
部署方案 B:DeepSeek-V2-236B FP8 TP=8
为什么可以选 DeepSeek:
- MoE 架构激活参数只 21B,推理速度极快
- 236B 名头唬人,客户对"跑满血"有预期
- FP8 236B 权重约 240GB,8 卡刚够
启动命令:
python -m vllm.entrypoints.openai.api_server \
--model /models/DeepSeek-V2-Chat \
--served-model-name deepseek-v2 \
--tensor-parallel-size 8 \
--dtype float8_e4m3fn \
--max-model-len 32768 \
--gpu-memory-utilization 0.92 \
--enable-prefix-caching \
--max-num-batched-tokens 16384 \
--max-num-seqs 96 \
--trust-remote-code \
--port 8001 \
--api-key sk-YOUR-INTERNAL-KEY注意:
- DeepSeek MoE 需要
--trust-remote-code - Max num seqs 略低(MoE 显存更吃紧)
- 权重占用 240GB,KV cache 空间会小
性能预估:
- TTFT p99:< 1s(MoE 激活参数少,速度快)
- 单卡 TPS:~180 tok/s(MoE 优势)
- 整机 TPS:~1400 tok/s
- 月理论满载:约 36 亿 tokens output
部署方案 C:两个 34-40B 副本 TP=4
如果 72B / 236B 客户量起不来,可以拆成两个副本:
Qwen2.5-32B AWQ TP=4 × 2 副本:
- 每副本 4 卡,两副本可各服务不同客户
- Qwen2.5-32B AWQ INT4 单卡约 20GB,4 卡足够
- 双副本并发翻倍,适合中端 API
启动 4 卡副本 A(GPU 0-3):
CUDA_VISIBLE_DEVICES=0,1,2,3 python -m vllm.entrypoints.openai.api_server \
--model /models/Qwen2.5-32B-Instruct-AWQ \
--served-model-name qwen2.5-32b \
--tensor-parallel-size 4 \
--quantization awq \
--max-model-len 16384 \
--gpu-memory-utilization 0.90 \
--enable-prefix-caching \
--port 8001启动 4 卡副本 B(GPU 4-7):
CUDA_VISIBLE_DEVICES=4,5,6,7 python -m vllm.entrypoints.openai.api_server \
--model /models/Qwen2.5-32B-Instruct-AWQ \
--served-model-name qwen2.5-32b-b \
--tensor-parallel-size 4 \
--quantization awq \
--max-model-len 16384 \
--gpu-memory-utilization 0.90 \
--enable-prefix-caching \
--port 8002推荐
8 周 MVP 阶段:先跑方案 C(Qwen2.5-32B AWQ × 2 副本)
- 32B 已经能覆盖 90% 客户需求
- AWQ 稳定性高于 FP8 早期版本
- 两副本冗余,一个崩不影响另一个
验证有客户后(3-6 月):切换到方案 A(Qwen3-72B FP8)
- 差异化卖点更强
- 客户已经付费,可以承受更高单价
M1 长期定位:跑集群里"最贵的模型",卖差异化。
监控
- 端口 8001(+8002 如方案 C)
- Prometheus scrape
/metrics - 关键告警:
- GPU 温度 > 87°C
- 显存占用 > 95%
- Request queue 积压 > 100
- TTFT p99 > 2s
systemd 服务化
创建 /etc/systemd/system/vllm-m1.service:
[Unit]
Description=vLLM M1 Flagship
After=network.target
[Service]
Type=simple
User=ubuntu
WorkingDirectory=/home/ubuntu
ExecStart=/home/ubuntu/miniconda3/envs/vllm/bin/python -m vllm.entrypoints.openai.api_server \
--model /models/Qwen2.5-32B-Instruct-AWQ \
--served-model-name qwen2.5-32b \
--tensor-parallel-size 8 \
--quantization awq \
--max-model-len 16384 \
--enable-prefix-caching \
--port 8001
Restart=on-failure
RestartSec=30
[Install]
WantedBy=multi-user.target启动:
systemctl enable vllm-m1systemctl start vllm-m1journalctl -u vllm-m1 -f看日志
客户看到的 API
Client → https://api.your-domain.com/v1/chat/completions:
{
"model": "qwen2.5-32b",
"messages": [{"role": "user", "content": "你好"}]
}网关(见 07-tech-stack.md)路由到 M1 端口 8001。