GPU Compute Plans
04 场景演算S0 production plan

01 · 硬件与系统基础

01 · 硬件与系统基础

一、单机硬件配置建议

项目方的 5 台机器如果还没配齐,按下面标准来。已配齐的对照检查。

部件建议规格备注
GPU8 × RTX 5090 32GB已定
CPUAMD EPYC 9354 32C 或 Intel Xeon 8480+ 56CPCIe 5.0 × 128 通道必需
主板Supermicro / Gigabyte 4U 8-GPU支持 PCIe 5.0 x16 × 8
内存512 GB DDR5-4800 ECCKV cache 溢出需要
系统盘2 × 960 GB NVMe RAID1ext4
数据盘4 × 3.84 TB NVMe(模型仓库)ext4 或 xfs
网卡Mellanox ConnectX-6 100G × 2主/管 冗余
电源3+1 冗余 3000W 钛金峰值 4.6kW
机箱散热4U 前后 8 风扇 + GPU 风道消费卡散热是关键

关键:5090 是消费卡,机箱风道要重点设计,否则满载 90°C+ 会降频。

二、机器物理布局

IDC 托管方案

  • 每台 4U,5 台 20U,1 个标准 42U 柜绰绰有余
  • 单柜功耗 30kW,需要高密柜(普通柜只到 8-15kW)
  • 冷却:冷通道封闭 + 后门换热 或 液冷改造
  • 电力:3 相 380V 60A × 2 冗余

办公室 / 家用方案

  • 每台 4.6kW,单相 220V 20A 只能撑 3 台,必须分布式布点或升级工业电
  • 噪音:满载 65-75 分贝,独立房间 + 隔音
  • 空调:至少 5 匹柜机 × 2 冗余

推荐:IDC 托管高密柜,单月 5000-8000 元柜租值得。

三、网络组网

        [Internet]

        ┌────▼────┐
        │ 光纤入口 │ 100M / 1G 独享
        └────┬────┘

        ┌────▼────┐
        │  防火墙  │ pfSense / OPNsense
        └────┬────┘

        ┌────▼────┐  管理网 25G
        │  交换机  │ Mikrotik CRS326 或 Mellanox SN2100
        └─┬──┬─┬──┘
          │  │ │
       M1─┘  │ └─M5
          M2─┴─M3    (25G ×2 每机)

        M4─┘

要点

  • 5 台机器间 25G 或 100G 内网直连(不走公网)
  • 管理网 + 存储网可以合并
  • 100G 更贵但为未来扩机器留空间

四、系统与基础栈

4.1 操作系统

Ubuntu 24.04 LTS Server(Blackwell 支持最好)

  • UEFI + LVM
  • 不装桌面
  • SSH server 必装
  • 时区 Asia/Shanghai

4.2 NVIDIA 驱动 + CUDA

参考 developer.nvidia.com 官方文档:

  • 加 NVIDIA repo(cuda-keyring)
  • 装 nvidia-driver-565(Blackwell)
  • 装 cuda-toolkit-12-6
  • reboot 后 nvidia-smi 应看到 8 张 5090

4.3 容器运行时

  • 装 Docker(curl get.docker.com)
  • 装 NVIDIA Container Toolkit(参考 github.com/NVIDIA/nvidia-container-toolkit)
  • 配置 nvidia-ctk runtime
  • 测试 docker run --gpus all nvidia/cuda:12.6.0-base nvidia-smi

4.4 K8s(可选,第 2 阶段再上)

第一阶段可以只用 systemd + docker,稳定后再上 K3s。

如果直接上 K3s:

  • 参考 k3s.io 官方安装命令(curl get.k3s.io)
  • 装 NVIDIA GPU Operator(helm repo add nvidia + helm install)

五、监控预装

每台机器都装:

  • Node Exporter:Docker 起,端口 9100
  • DCGM Exporter:Docker 起(nvcr.io/nvidia/k8s/dcgm-exporter),端口 9400

主控机(M5 或独立 VPS)跑 Prometheus + Grafana。

六、模型仓库

共享模型仓库(避免每台重复下载):

选项 A(简单,推荐):

  • 一台机器(M3)跑 NFS
  • 所有机器 mount /models

选项 B(正规):

  • MinIO 起 S3 兼容对象存储
  • 每台本地缓存到 NVMe

推荐选项 A 起步。

在 M3 上装 NFS

  • apt install nfs-kernel-server
  • 导出 /data/models 到 192.168.1.0/24 子网
  • exportfs -a

在其他机器上 mount

  • apt install nfs-common
  • fstab 加 M3-IP:/data/models /models nfs defaults 0 0
  • mount /models

七、下载模型(用 hf-mirror 加速)

export HF_ENDPOINT=https://hf-mirror.com
export HF_HUB_ENABLE_HF_TRANSFER=1
pip install huggingface_hub hf_transfer

huggingface-cli download Qwen/Qwen3-72B-Instruct \
  --local-dir /models/Qwen3-72B-Instruct \
  --local-dir-use-symlinks False

八、启动前检查清单

  • 5 台都装好 driver 565 + CUDA 12.6
  • nvidia-smi 每台看到 8 张卡
  • docker run --gpus all 能跑
  • 内网 25G ping < 0.5ms
  • NFS 模型仓库挂载成功
  • Node Exporter + DCGM Exporter 每台正常
  • Prometheus 采到所有节点
  • Grafana 大屏看到 40 张 GPU
  • 下载 3 个模型(Qwen3-72B / Qwen2.5-32B / BGE-M3)

装完就绪 → 下一步:02-machine-M1-flagship.md

On this page