04 场景演算S0 production plan
01 · 硬件与系统基础
01 · 硬件与系统基础
一、单机硬件配置建议
项目方的 5 台机器如果还没配齐,按下面标准来。已配齐的对照检查。
| 部件 | 建议规格 | 备注 |
|---|---|---|
| GPU | 8 × RTX 5090 32GB | 已定 |
| CPU | AMD EPYC 9354 32C 或 Intel Xeon 8480+ 56C | PCIe 5.0 × 128 通道必需 |
| 主板 | Supermicro / Gigabyte 4U 8-GPU | 支持 PCIe 5.0 x16 × 8 |
| 内存 | 512 GB DDR5-4800 ECC | KV cache 溢出需要 |
| 系统盘 | 2 × 960 GB NVMe RAID1 | ext4 |
| 数据盘 | 4 × 3.84 TB NVMe(模型仓库) | ext4 或 xfs |
| 网卡 | Mellanox ConnectX-6 100G × 2 | 主/管 冗余 |
| 电源 | 3+1 冗余 3000W 钛金 | 峰值 4.6kW |
| 机箱散热 | 4U 前后 8 风扇 + GPU 风道 | 消费卡散热是关键 |
关键:5090 是消费卡,机箱风道要重点设计,否则满载 90°C+ 会降频。
二、机器物理布局
IDC 托管方案:
- 每台 4U,5 台 20U,1 个标准 42U 柜绰绰有余
- 单柜功耗 30kW,需要高密柜(普通柜只到 8-15kW)
- 冷却:冷通道封闭 + 后门换热 或 液冷改造
- 电力:3 相 380V 60A × 2 冗余
办公室 / 家用方案:
- 每台 4.6kW,单相 220V 20A 只能撑 3 台,必须分布式布点或升级工业电
- 噪音:满载 65-75 分贝,独立房间 + 隔音
- 空调:至少 5 匹柜机 × 2 冗余
推荐:IDC 托管高密柜,单月 5000-8000 元柜租值得。
三、网络组网
[Internet]
│
┌────▼────┐
│ 光纤入口 │ 100M / 1G 独享
└────┬────┘
│
┌────▼────┐
│ 防火墙 │ pfSense / OPNsense
└────┬────┘
│
┌────▼────┐ 管理网 25G
│ 交换机 │ Mikrotik CRS326 或 Mellanox SN2100
└─┬──┬─┬──┘
│ │ │
M1─┘ │ └─M5
M2─┴─M3 (25G ×2 每机)
│
M4─┘要点:
- 5 台机器间 25G 或 100G 内网直连(不走公网)
- 管理网 + 存储网可以合并
- 100G 更贵但为未来扩机器留空间
四、系统与基础栈
4.1 操作系统
Ubuntu 24.04 LTS Server(Blackwell 支持最好)
- UEFI + LVM
- 不装桌面
- SSH server 必装
- 时区 Asia/Shanghai
4.2 NVIDIA 驱动 + CUDA
参考 developer.nvidia.com 官方文档:
- 加 NVIDIA repo(cuda-keyring)
- 装 nvidia-driver-565(Blackwell)
- 装 cuda-toolkit-12-6
- reboot 后
nvidia-smi应看到 8 张 5090
4.3 容器运行时
- 装 Docker(curl get.docker.com)
- 装 NVIDIA Container Toolkit(参考 github.com/NVIDIA/nvidia-container-toolkit)
- 配置 nvidia-ctk runtime
- 测试
docker run --gpus all nvidia/cuda:12.6.0-base nvidia-smi
4.4 K8s(可选,第 2 阶段再上)
第一阶段可以只用 systemd + docker,稳定后再上 K3s。
如果直接上 K3s:
- 参考 k3s.io 官方安装命令(curl get.k3s.io)
- 装 NVIDIA GPU Operator(helm repo add nvidia + helm install)
五、监控预装
每台机器都装:
- Node Exporter:Docker 起,端口 9100
- DCGM Exporter:Docker 起(nvcr.io/nvidia/k8s/dcgm-exporter),端口 9400
主控机(M5 或独立 VPS)跑 Prometheus + Grafana。
六、模型仓库
共享模型仓库(避免每台重复下载):
选项 A(简单,推荐):
- 一台机器(M3)跑 NFS
- 所有机器 mount
/models
选项 B(正规):
- MinIO 起 S3 兼容对象存储
- 每台本地缓存到 NVMe
推荐选项 A 起步。
在 M3 上装 NFS:
apt install nfs-kernel-server- 导出
/data/models到 192.168.1.0/24 子网 exportfs -a
在其他机器上 mount:
apt install nfs-common- fstab 加
M3-IP:/data/models /models nfs defaults 0 0 mount /models
七、下载模型(用 hf-mirror 加速)
export HF_ENDPOINT=https://hf-mirror.com
export HF_HUB_ENABLE_HF_TRANSFER=1
pip install huggingface_hub hf_transfer
huggingface-cli download Qwen/Qwen3-72B-Instruct \
--local-dir /models/Qwen3-72B-Instruct \
--local-dir-use-symlinks False八、启动前检查清单
- 5 台都装好 driver 565 + CUDA 12.6
-
nvidia-smi每台看到 8 张卡 -
docker run --gpus all能跑 - 内网 25G ping < 0.5ms
- NFS 模型仓库挂载成功
- Node Exporter + DCGM Exporter 每台正常
- Prometheus 采到所有节点
- Grafana 大屏看到 40 张 GPU
- 下载 3 个模型(Qwen3-72B / Qwen2.5-32B / BGE-M3)
装完就绪 → 下一步:02-machine-M1-flagship.md