01 路线A 卖算力
Plan A · v2 · Container 版本
Plan A · v2 · Container 版本
目标:K8s 化算力池,支持容器分租,1 台机可拆给多个客户。
定位:v1 稳定后 3-4 个月过渡,服务开始规模化。
1. 相比 v1 的关键升级
| 维度 | v1 | v2 |
|---|---|---|
| 交付形态 | 整机裸金属 | 整机 / K8s Pod / VM 三选一 |
| 最小粒度 | 8 卡起租 | 1 卡起租(MIG 后 1/7 卡起) |
| 调度 | 手工 | Kubernetes + kube-scheduler |
| 计费粒度 | 日结整机 | 分钟级卡时 + 存储 + 流量 |
| 门户 | 工单 | 自助创建/销毁实例 |
| 多租户 | 单机单客户 | 单机 N 客户 |
| 网络隔离 | VLAN | Calico + NetworkPolicy |
| 存储 | 本地 NVMe | 本地 + CephFS / JuiceFS |
2. 架构升级
客户 API / 门户
│
┌─────────▼─────────┐
│ 订单 & 计费 │
│ 商业化计费系统 │
└─────────┬─────────┘
│
┌─────────▼─────────┐
│ K8s API Server │
└─────────┬─────────┘
│
┌────────────────────────┼────────────────────────┐
│ │ │
┌────▼────┐ ┌────▼────┐ ┌────▼────┐
│ 节点池 1 │ │ 节点池 2 │ │ 节点池 3 │
│ H800 x8 │ │ A100 x8 │ │ 4090 x8 │
│ 裸金属 │ │ MIG 切分 │ │ 容器化 │
└─────────┘ └─────────┘ └─────────┘
│
┌─────────▼─────────┐
│ 共享存储 │
│ CephFS / JuiceFS │
└────────────────────┘3. 关键组件升级
| 组件 | v1 | v2 | 决策 |
|---|---|---|---|
| 调度 | 手工 | K8s + Volcano | Volcano 支持 gang scheduling,适合训练 |
| GPU 分片 | 无 | NVIDIA MIG + time-slicing | MIG 硬隔离,time-slice 软共享 |
| 网络 | VLAN | Calico + Multus (SR-IOV) | 多网卡对 IB / RoCE 必需 |
| 存储 | 本地 NVMe | + JuiceFS / CephFS | 支持跨机训练 |
| 镜像 | 静态 Ubuntu | + Harbor 镜像仓库 | 客户可自定义镜像 |
| 计费 | Python + MySQL | Kafka + Flink + PG | 秒级采集,分钟级出账 |
| 门户 | 简单工单 | 自助控制台 + Terraform provider | 大客户要 IaC |
| 网络策略 | iptables | NetworkPolicy + eBPF | 防租户互扫 |
4. 计费模型升级
多维度组合计费:
| 维度 | 单位 | 计价 |
|---|---|---|
| GPU 时长 | 分钟 | 按卡型 |
| CPU + 内存 | 核·分钟 / GB·分钟 | 独立计价 |
| 本地 NVMe | GB·分钟 | 独立计价 |
| 共享存储 | GB·分钟 | 独立计价 |
| 出向流量 | GB | 阶梯计价 |
新增计费类型:
- 按需:随开随停,价格 1.0×
- 月付:包月锁量,0.7×
- 抢占:可被回收,0.35×(喂给 Plan B 用)
5. 关键难点
| 难点 | 应对 |
|---|---|
| GPU 隔离 | MIG 硬隔离首选;time-slicing 只用于低优先级 |
| KV cache 泄露 | 每次容器销毁前 nvidia-smi -r 强制复位 |
| 网络抓包 | Multus + SR-IOV + NetworkPolicy 三重隔离 |
| 抢占实例回收 | 提前 30s 通知客户,PreStopHook 保存 checkpoint |
| 计费准确 | 每分钟落一次 usage_record,事后可核对 |
6. 关键新特性
1. 竞价市场(v2 就要有)
- 客户提交出价 → 有资源就跑,无资源等
- 价格自动波动:当前空置率 > 30% 就降价 20%
- 卖不掉的算力自动灌进 Plan B 侧
2. 训练任务模板
- 一键提交 LLaMA-Factory / DeepSpeed / Megatron 任务
- 客户不用自己配 nccl / RDMA
3. 客户自定义镜像
- 客户可 push 私有镜像到 Harbor
- 平台预扫恶意软件
7. 里程碑(12 周)
| 阶段 | 周次 | 交付 |
|---|---|---|
| 阶段 1 | W1-W4 | K8s 集群 + GPU Operator + MIG 打通 |
| 阶段 2 | W5-W6 | Volcano + 训练任务模板 |
| 阶段 3 | W7-W8 | 竞价市场 + 抢占实例 |
| 阶段 4 | W9-W10 | 客户自助门户 + Terraform |
| 阶段 5 | W11-W12 | 灰度 20 客户,双跑 v1/v2 |
8. v2 单机经济模型对比 v1
同样 8×H800 单机,成本相同(≈72,192 元/月):
| 场景 | 出租率 | 计费方式 | 月营收 | 毛利 |
|---|---|---|---|---|
| v1 整租满租 | 100% | 整机 20 万/月 | 200,000 | 64% |
| v1 整租空 40% | 60% | 整机 | 120,000 | 40% |
| v2 混合租 | 85%(分租)+ 15%(灌 B) | 灵活 | 210,000 | 66% |
| v2 全喂 B 抢占 | 100% | Plan B 侧算 | 240,000+ | 70%+ |
核心 insight:v2 之后一台机器不会真的"空置",闲的时候永远在给 MaaS 生成 token,只不过按抢占实例价打折。
9. 组件对比(选型附录)
9.1 GPU 编排:K8s vs Slurm
| 项 | Kubernetes + Volcano | Slurm |
|---|---|---|
| 生态 | 云原生标准 | HPC 老牌 |
| 弹性 | 强(HPA、Cluster Autoscaler) | 弱 |
| 训练兼容 | 需 MPI Operator / KubeRay | 原生 |
| 学习曲线 | 中 | 高(脚本文化) |
| 客户熟悉度 | AI 团队更熟 | 科研团队更熟 |
决策:主推 K8s,科研客户单独给 Slurm 集群。
9.2 存储:Ceph vs JuiceFS vs 云原生
| 项 | CephFS | JuiceFS | Weka |
|---|---|---|---|
| 部署难度 | 高 | 低 | 中 |
| 性能 | 中 | 中 | 高 |
| 成本 | 硬件成本高 | 依赖对象存储 | 商业授权贵 |
| 数据本地性 | 差 | 可开缓存 | 强 |
决策:v2 上 JuiceFS + S3 兼容对象存储,成本可控;Weka 留给 v3。
9.3 网络:Calico vs Cilium
| 项 | Calico | Cilium |
|---|---|---|
| eBPF | 部分 | 全 eBPF |
| NetworkPolicy | 支持 | 支持 + 更细 |
| 服务网格 | 无 | Hubble |
| 性能 | 强 | 更强 |
决策:Cilium 更现代,但运维复杂;v2 先 Calico,v3 再评估切换。
10. 风险清单
- 从 v1 迁移过来的老客户是否愿意上 K8s(可能要长期双轨)
- MIG 只有 H100/H800/A100 80G 支持
- 训练客户对 IB 网络苛刻,K8s + Multus 学习成本高
- 计费复杂度暴增,第一个月账单一定要人肉核对