01 · 硬件与系统基础

一、单机硬件配置建议

项目方的 5 台机器如果还没配齐，按下面标准来。已配齐的对照检查。

部件	建议规格	备注
GPU	8 × RTX 5090 32GB	已定
CPU	AMD EPYC 9354 32C 或 Intel Xeon 8480+ 56C	PCIe 5.0 × 128 通道必需
主板	Supermicro / Gigabyte 4U 8-GPU	支持 PCIe 5.0 x16 × 8
内存	512 GB DDR5-4800 ECC	KV cache 溢出需要
系统盘	2 × 960 GB NVMe RAID1	ext4
数据盘	4 × 3.84 TB NVMe（模型仓库）	ext4 或 xfs
网卡	Mellanox ConnectX-6 100G × 2	主/管冗余
电源	3+1 冗余 3000W 钛金	峰值 4.6kW
机箱散热	4U 前后 8 风扇 + GPU 风道	消费卡散热是关键

关键：5090 是消费卡，机箱风道要重点设计，否则满载 90°C+ 会降频。

二、机器物理布局

IDC 托管方案：

每台 4U，5 台 20U，1 个标准 42U 柜绰绰有余
单柜功耗 30kW，需要高密柜（普通柜只到 8-15kW）
冷却：冷通道封闭 + 后门换热或液冷改造
电力：3 相 380V 60A × 2 冗余

办公室 / 家用方案：

每台 4.6kW，单相 220V 20A 只能撑 3 台，必须分布式布点或升级工业电
噪音：满载 65-75 分贝，独立房间 + 隔音
空调：至少 5 匹柜机 × 2 冗余

推荐：IDC 托管高密柜，单月 5000-8000 元柜租值得。

三、网络组网

        [Internet]
             │
        ┌────▼────┐
        │ 光纤入口 │ 100M / 1G 独享
        └────┬────┘
             │
        ┌────▼────┐
        │  防火墙  │ pfSense / OPNsense
        └────┬────┘
             │
        ┌────▼────┐  管理网 25G
        │  交换机  │ Mikrotik CRS326 或 Mellanox SN2100
        └─┬──┬─┬──┘
          │  │ │
       M1─┘  │ └─M5
          M2─┴─M3    (25G ×2 每机)
          │
        M4─┘

要点：

5 台机器间 25G 或 100G 内网直连（不走公网）
管理网 + 存储网可以合并
100G 更贵但为未来扩机器留空间

四、系统与基础栈

4.1 操作系统

Ubuntu 24.04 LTS Server（Blackwell 支持最好）

UEFI + LVM
不装桌面
SSH server 必装
时区 Asia/Shanghai

4.2 NVIDIA 驱动 + CUDA

参考 developer.nvidia.com 官方文档：

加 NVIDIA repo（cuda-keyring）
装 nvidia-driver-565（Blackwell）
装 cuda-toolkit-12-6
reboot 后 nvidia-smi 应看到 8 张 5090

4.3 容器运行时

装 Docker（curl get.docker.com）
装 NVIDIA Container Toolkit（参考 github.com/NVIDIA/nvidia-container-toolkit）
配置 nvidia-ctk runtime
测试 docker run --gpus all nvidia/cuda:12.6.0-base nvidia-smi

4.4 K8s（可选，第 2 阶段再上）

第一阶段可以只用 systemd + docker，稳定后再上 K3s。

如果直接上 K3s：

参考 k3s.io 官方安装命令（curl get.k3s.io）
装 NVIDIA GPU Operator（helm repo add nvidia + helm install）

五、监控预装

每台机器都装：

Node Exporter：Docker 起，端口 9100
DCGM Exporter：Docker 起（nvcr.io/nvidia/k8s/dcgm-exporter），端口 9400

主控机（M5 或独立 VPS）跑 Prometheus + Grafana。

六、模型仓库

共享模型仓库（避免每台重复下载）：

选项 A（简单，推荐）：

一台机器（M3）跑 NFS
所有机器 mount /models

选项 B（正规）：

MinIO 起 S3 兼容对象存储
每台本地缓存到 NVMe

推荐选项 A 起步。

在 M3 上装 NFS：

apt install nfs-kernel-server
导出 /data/models 到 192.168.1.0/24 子网
exportfs -a

在其他机器上 mount：

apt install nfs-common
fstab 加 M3-IP:/data/models /models nfs defaults 0 0
mount /models

七、下载模型（用 hf-mirror 加速）

export HF_ENDPOINT=https://hf-mirror.com
export HF_HUB_ENABLE_HF_TRANSFER=1
pip install huggingface_hub hf_transfer

huggingface-cli download Qwen/Qwen3-72B-Instruct \
  --local-dir /models/Qwen3-72B-Instruct \
  --local-dir-use-symlinks False

八、启动前检查清单

5 台都装好 driver 565 + CUDA 12.6
nvidia-smi 每台看到 8 张卡
docker run --gpus all 能跑
内网 25G ping < 0.5ms
NFS 模型仓库挂载成功
Node Exporter + DCGM Exporter 每台正常
Prometheus 采到所有节点
Grafana 大屏看到 40 张 GPU
下载 3 个模型（Qwen3-72B / Qwen2.5-32B / BGE-M3）

装完就绪 → 下一步：02-machine-M1-flagship.md

01 · 硬件与系统基础

On this page