02 · M1 机器 · 旗舰模型

定位

跑最大的模型，做差异化卖点。

单机 8×5090 = 256 GB 显存
目标：跑 Qwen3-72B-Instruct FP8 TP=8 或 DeepSeek-V2-236B FP8 TP=8（MoE 激活约 21B，超划算）
高价定位：¥3/M in / ¥8/M out（对齐 GPT-4o-mini 中文版价位）

部署方案 A：Qwen3-72B FP8 TP=8

为什么先跑 72B：

Qwen3-72B 中文能力顶尖，等同 GPT-4o 水准
FP8 单卡 24GB，8 卡 TP 显存足够（含 KV cache）
客户对"跑得动 72B"有溢价预期

启动命令（vLLM 0.6.5+）：

python -m vllm.entrypoints.openai.api_server \
  --model /models/Qwen3-72B-Instruct \
  --served-model-name qwen3-72b \
  --tensor-parallel-size 8 \
  --dtype float8_e4m3fn \
  --max-model-len 32768 \
  --gpu-memory-utilization 0.90 \
  --enable-prefix-caching \
  --max-num-batched-tokens 16384 \
  --max-num-seqs 128 \
  --port 8001 \
  --host 0.0.0.0 \
  --api-key sk-YOUR-INTERNAL-KEY \
  --enable-chunked-prefill

关键参数：

tensor-parallel-size 8：8 卡张量并行
float8_e4m3fn：Blackwell 原生 FP8
enable-prefix-caching：多轮对话/系统提示复用
enable-chunked-prefill：长上下文场景 TTFT 更好
max-num-seqs 128：并发上限（够单机跑生产）

性能预估（基于 Blackwell 官方基准 + vLLM benchmark 推算）：

TTFT p99：< 800ms（4K prompt 场景）
单卡 TPS：~150 tok/s
整机 TPS：~1200 tok/s（TP=8 会有 collective 开销）
单副本并发：稳定 ~50-80

月理论满载营收：

整机 TPS ~1200 tok/s → output 约 31 亿 tokens / 月，input 按 3-5× 估算后总量约 120-155 亿 tokens / 月
按 output ¥8/M、input ¥3/M 计算，月营收约 5.3-7.1 万/月

部署方案 B：DeepSeek-V2-236B FP8 TP=8

为什么可以选 DeepSeek：

MoE 架构激活参数只 21B，推理速度极快
236B 名头唬人，客户对"跑满血"有预期
FP8 236B 权重约 240GB，8 卡刚够

启动命令：

python -m vllm.entrypoints.openai.api_server \
  --model /models/DeepSeek-V2-Chat \
  --served-model-name deepseek-v2 \
  --tensor-parallel-size 8 \
  --dtype float8_e4m3fn \
  --max-model-len 32768 \
  --gpu-memory-utilization 0.92 \
  --enable-prefix-caching \
  --max-num-batched-tokens 16384 \
  --max-num-seqs 96 \
  --trust-remote-code \
  --port 8001 \
  --api-key sk-YOUR-INTERNAL-KEY

注意：

DeepSeek MoE 需要 --trust-remote-code
Max num seqs 略低（MoE 显存更吃紧）
权重占用 240GB，KV cache 空间会小

性能预估：

TTFT p99：< 1s（MoE 激活参数少，速度快）
单卡 TPS：~180 tok/s（MoE 优势）
整机 TPS：~1400 tok/s
月理论满载：约 36 亿 tokens output

部署方案 C：两个 34-40B 副本 TP=4

如果 72B / 236B 客户量起不来，可以拆成两个副本：

Qwen2.5-32B AWQ TP=4 × 2 副本：

每副本 4 卡，两副本可各服务不同客户
Qwen2.5-32B AWQ INT4 单卡约 20GB，4 卡足够
双副本并发翻倍，适合中端 API

启动 4 卡副本 A（GPU 0-3）：

CUDA_VISIBLE_DEVICES=0,1,2,3 python -m vllm.entrypoints.openai.api_server \
  --model /models/Qwen2.5-32B-Instruct-AWQ \
  --served-model-name qwen2.5-32b \
  --tensor-parallel-size 4 \
  --quantization awq \
  --max-model-len 16384 \
  --gpu-memory-utilization 0.90 \
  --enable-prefix-caching \
  --port 8001

启动 4 卡副本 B（GPU 4-7）：

CUDA_VISIBLE_DEVICES=4,5,6,7 python -m vllm.entrypoints.openai.api_server \
  --model /models/Qwen2.5-32B-Instruct-AWQ \
  --served-model-name qwen2.5-32b-b \
  --tensor-parallel-size 4 \
  --quantization awq \
  --max-model-len 16384 \
  --gpu-memory-utilization 0.90 \
  --enable-prefix-caching \
  --port 8002

监控

端口 8001（+8002 如方案 C）
Prometheus scrape /metrics
关键告警：
- GPU 温度 > 87°C
- 显存占用 > 95%
- Request queue 积压 > 100
- TTFT p99 > 2s

systemd 服务化

创建 /etc/systemd/system/vllm-m1.service：

[Unit]
Description=vLLM M1 Flagship
After=network.target

[Service]
Type=simple
User=ubuntu
WorkingDirectory=/home/ubuntu
ExecStart=/home/ubuntu/miniconda3/envs/vllm/bin/python -m vllm.entrypoints.openai.api_server \
  --model /models/Qwen2.5-32B-Instruct-AWQ \
  --served-model-name qwen2.5-32b \
  --tensor-parallel-size 8 \
  --quantization awq \
  --max-model-len 16384 \
  --enable-prefix-caching \
  --port 8001
Restart=on-failure
RestartSec=30

[Install]
WantedBy=multi-user.target

启动：

systemctl enable vllm-m1
systemctl start vllm-m1
journalctl -u vllm-m1 -f 看日志

客户看到的 API

Client → https://api.your-domain.com/v1/chat/completions：

{
  "model": "qwen2.5-32b",
  "messages": [{"role": "user", "content": "你好"}]
}

网关（见 07-tech-stack.md）路由到 M1 端口 8001。

02 · M1 机器 · 旗舰模型

02 · M1 机器 · 旗舰模型

定位

部署方案 A：Qwen3-72B FP8 TP=8

部署方案 B：DeepSeek-V2-236B FP8 TP=8

部署方案 C：两个 34-40B 副本 TP=4

推荐

监控

systemd 服务化

客户看到的 API

On this page