Plan A · v2 · Container 版本

目标：K8s 化算力池，支持容器分租，1 台机可拆给多个客户。
定位：v1 稳定后 3-4 个月过渡，服务开始规模化。

1. 相比 v1 的关键升级

维度	v1	v2
交付形态	整机裸金属	整机 / K8s Pod / VM 三选一
最小粒度	8 卡起租	1 卡起租（MIG 后 1/7 卡起）
调度	手工	Kubernetes + kube-scheduler
计费粒度	日结整机	分钟级卡时 + 存储 + 流量
门户	工单	自助创建/销毁实例
多租户	单机单客户	单机 N 客户
网络隔离	VLAN	Calico + NetworkPolicy
存储	本地 NVMe	本地 + CephFS / JuiceFS

2. 架构升级

                          客户 API / 门户
                              │
                    ┌─────────▼─────────┐
                    │   订单 & 计费      │
                    │   商业化计费系统    │
                    └─────────┬─────────┘
                              │
                    ┌─────────▼─────────┐
                    │   K8s API Server  │
                    └─────────┬─────────┘
                              │
     ┌────────────────────────┼────────────────────────┐
     │                        │                        │
┌────▼────┐              ┌────▼────┐              ┌────▼────┐
│  节点池 1 │              │  节点池 2 │              │  节点池 3 │
│  H800 x8 │              │  A100 x8 │              │  4090 x8 │
│  裸金属  │              │  MIG 切分 │              │  容器化  │
└─────────┘              └─────────┘              └─────────┘
                              │
                    ┌─────────▼─────────┐
                    │  共享存储           │
                    │  CephFS / JuiceFS  │
                    └────────────────────┘

3. 关键组件升级

组件	v1	v2	决策
调度	手工	K8s + Volcano	Volcano 支持 gang scheduling，适合训练
GPU 分片	无	NVIDIA MIG + time-slicing	MIG 硬隔离，time-slice 软共享
网络	VLAN	Calico + Multus (SR-IOV)	多网卡对 IB / RoCE 必需
存储	本地 NVMe	+ JuiceFS / CephFS	支持跨机训练
镜像	静态 Ubuntu	+ Harbor 镜像仓库	客户可自定义镜像
计费	Python + MySQL	Kafka + Flink + PG	秒级采集，分钟级出账
门户	简单工单	自助控制台 + Terraform provider	大客户要 IaC
网络策略	iptables	NetworkPolicy + eBPF	防租户互扫

4. 计费模型升级

多维度组合计费：

维度	单位	计价
GPU 时长	分钟	按卡型
CPU + 内存	核·分钟 / GB·分钟	独立计价
本地 NVMe	GB·分钟	独立计价
共享存储	GB·分钟	独立计价
出向流量	GB	阶梯计价

新增计费类型：

按需：随开随停，价格 1.0×
月付：包月锁量，0.7×
抢占：可被回收，0.35×（喂给 Plan B 用）

5. 关键难点

难点	应对
GPU 隔离	MIG 硬隔离首选；time-slicing 只用于低优先级
KV cache 泄露	每次容器销毁前 `nvidia-smi -r` 强制复位
网络抓包	Multus + SR-IOV + NetworkPolicy 三重隔离
抢占实例回收	提前 30s 通知客户，`PreStopHook` 保存 checkpoint
计费准确	每分钟落一次 `usage_record`，事后可核对

6. 关键新特性

1. 竞价市场（v2 就要有）

客户提交出价 → 有资源就跑，无资源等
价格自动波动：当前空置率 > 30% 就降价 20%
卖不掉的算力自动灌进 Plan B 侧

2. 训练任务模板

一键提交 LLaMA-Factory / DeepSpeed / Megatron 任务
客户不用自己配 nccl / RDMA

3. 客户自定义镜像

客户可 push 私有镜像到 Harbor
平台预扫恶意软件

7. 里程碑（12 周）

阶段	周次	交付
阶段 1	W1-W4	K8s 集群 + GPU Operator + MIG 打通
阶段 2	W5-W6	Volcano + 训练任务模板
阶段 3	W7-W8	竞价市场 + 抢占实例
阶段 4	W9-W10	客户自助门户 + Terraform
阶段 5	W11-W12	灰度 20 客户，双跑 v1/v2

8. v2 单机经济模型对比 v1

同样 8×H800 单机，成本相同（≈72,192 元/月）：

场景	出租率	计费方式	月营收	毛利
v1 整租满租	100%	整机 20 万/月	200,000	64%
v1 整租空 40%	60%	整机	120,000	40%
v2 混合租	85%（分租）+ 15%（灌 B）	灵活	210,000	66%
v2 全喂 B 抢占	100%	Plan B 侧算	240,000+	70%+

核心 insight：v2 之后一台机器不会真的"空置"，闲的时候永远在给 MaaS 生成 token，只不过按抢占实例价打折。

9. 组件对比（选型附录）

9.1 GPU 编排：K8s vs Slurm

项	Kubernetes + Volcano	Slurm
生态	云原生标准	HPC 老牌
弹性	强（HPA、Cluster Autoscaler）	弱
训练兼容	需 MPI Operator / KubeRay	原生
学习曲线	中	高（脚本文化）
客户熟悉度	AI 团队更熟	科研团队更熟

决策：主推 K8s，科研客户单独给 Slurm 集群。

9.2 存储：Ceph vs JuiceFS vs 云原生

项	CephFS	JuiceFS	Weka
部署难度	高	低	中
性能	中	中	高
成本	硬件成本高	依赖对象存储	商业授权贵
数据本地性	差	可开缓存	强

决策：v2 上 JuiceFS + S3 兼容对象存储，成本可控；Weka 留给 v3。

9.3 网络：Calico vs Cilium

项	Calico	Cilium
eBPF	部分	全 eBPF
NetworkPolicy	支持	支持 + 更细
服务网格	无	Hubble
性能	强	更强

决策：Cilium 更现代，但运维复杂；v2 先 Calico，v3 再评估切换。

10. 风险清单

从 v1 迁移过来的老客户是否愿意上 K8s（可能要长期双轨）
MIG 只有 H100/H800/A100 80G 支持
训练客户对 IB 网络苛刻，K8s + Multus 学习成本高
计费复杂度暴增，第一个月账单一定要人肉核对

Plan A · v2 · Container 版本

On this page