Plan A · v1 · 卖算力 IaaS MVP

目标：2 个月内让第一批客户能用上卡、能付款。
场景：单机整租，不做容器化，不做多租户细分。

1. 目标 & 非目标

做：

单机整租：一台服务器（8 卡）交付给一个客户
客户能 SSH 上机，全权使用
有基础的开机 / 关机 / 重装能力
按天 / 按月计费，支持预付款
有故障工单渠道

不做：

容器化、K8s、多租户
竞价实例、抢占实例
分布式训练调度
客户自助控制台（第一批用工单）
跨机房、多可用区

SLA：

单机月度可用性 ≥ 99%
故障响应 ≤ 30 分钟
交付时间 ≤ 24 小时

2. 硬件基础清单

需要项目方提供实际数据，先按典型 8 × H800 单机估算：

项	规格	单机数量
GPU	H800 80G / H100 80G / A800 80G / L40S	8
CPU	Intel Xeon 8480+ 56 核 × 2	1
内存	DDR5 2TB	1
系统盘	960GB NVMe × 2 (RAID1)	1
数据盘	3.84TB NVMe × 4	1
网卡	ConnectX-7 400G × 8	1
管理网	25G × 2	1

3. 平台架构

客户
  │
  ↓ SSH / VPN
┌───────────────────────────────────┐
│         用户门户（Web）             │
│  只需要：创建工单、查账单、看监控     │
└──────────────┬────────────────────┘
               ↓
┌───────────────────────────────────┐
│         订单 & 计费（简版）          │
│  MySQL + 定时任务，日结             │
└──────────────┬────────────────────┘
               ↓
┌───────────────────────────────────┐
│         裸金属管理                  │
│  MAAS / Foreman / iDRAC/iBMC       │
│  开机/关机/重装/固件更新             │
└──────────────┬────────────────────┘
               ↓
┌───────────────────────────────────┐
│         GPU 服务器（裸金属）         │
│  Ubuntu 22.04 + CUDA 12.4 + Docker │
│  预装：PyTorch / DeepSpeed / vLLM   │
└──────────────┬────────────────────┘
               ↓
┌───────────────────────────────────┐
│         监控                       │
│  Prometheus + DCGM + Node Exporter │
│  Grafana 大屏 + 告警到飞书           │
└───────────────────────────────────┘

4. 关键组件选型（v1 优先选"够用就好"）

组件	选型	备选	决策理由
裸金属管理	MAAS（Ubuntu 官方）	Foreman、Cobbler	MAAS 社区大，Ubuntu 生态一站式
镜像	自制 Ubuntu 22.04 + CUDA + Driver		每次装机 3 分钟内完成
网络隔离	VLAN + iptables	Calico / OVS	单租户单机，VLAN 足够
存储	本地 NVMe，暂不提供共享存储	Ceph / GPFS	v1 不做
监控	Prometheus + Grafana	Zabbix	Grafana 对 GPU 指标可视化好
告警	Alertmanager → 飞书机器人	邮件 / SMS	已有飞书通道
工单	飞书群 + 工单机器人	Jira / Zendesk	前期人少，飞书够用
计费	Python 脚本 + MySQL + 手工对账	商业计费系统	v1 5 客户以内，别过度设计
门户	Next.js + 简单登录	现成 SaaS	客户认账号密码就行

5. 交付流程

客户下单
  ↓ 财务确认预付款
运维分配可用机器
  ↓ MAAS 装机（15 分钟）
配置 VLAN + SSH key
  ↓ 交付信息发飞书群
客户上机 → 使用
  ↓ 到期前 3 天提醒续费

6. 计费口径

卡时：按整机计费，不按单卡（v1 简化）
计价周期：日结（当天 0 点扣款）
停机：客户手动关机不停费；平台故障不计费
超时未付款：3 天后停机保留数据 7 天

7. 安全 & 反滥用

必须做的：

SSH 只开客户 IP 白名单
出向流量限速 100Mbps（防抓量）
检测挖矿：nvidia-smi 采样 + 常见 miner 进程名
定期扫描系统盘：Trojan / crypto miner / bot

不做的：

深度包检测（成本太高，交给上游 IDC）

8. 关键难点

难点	应对
故障恢复	每台机器预留 2 张备用卡；GPU ECC 错误自动告警，工单直接派人
交付延迟	MAAS 提前刷好待激活机器池，客户下单 15 分钟内交付
计费准确	每天 0 点跑对账脚本，人肉核对第一个月账单
客户跑路	强制预付款，欠费自动停机

9. 里程碑（8 周）

周次	交付物
W1	机房验收、卡型盘点、网络联调
W2	MAAS 部署 + 装机流程走通
W3	监控 + 告警 + 工单机器人
W4	计费系统（Python 脚本版）
W5	客户门户（登录 + 工单 + 账单）
W6	3 个白名单客户内测
W7	修 bug、优化交付流程
W8	正式上线，接第 5 个客户

10. 单机经济模型（假设）

假设：单机 8×H800，采购价 240 万，5 年折旧，电费 0.4 元/度，功耗 6kW，托管 3000 元/月/柜。

项	月成本
折旧	40,000
电费（含制冷 PUE 1.4）	24,192
托管	3,000
带宽	2,000
运维分摊	3,000
合计	72,192

按市场价 30-40 元/卡时估算：

单机 8 卡 × 24h × 30d × 35 元 = 201,600 元/月
满租毛利 = (201,600 - 72,192) / 201,600 = 64%
但 v1 空置率高，实际按 50% 出租率算：100,800 - 72,192 = 28,608 元/月，毛利 28%

结论：v1 期间目标是把出租率做到 60% 以上才能有正现金流。

11. 与竞品的差异化（v1 别硬拼价格）

响应快：24 小时内交付 vs 大厂 3-5 天
陪跑：帮客户调 vLLM / DeepSpeed，附加咨询价值
国产替代：如果卡是国产（华为昇腾、寒武纪），差异化明显
本地部署：客户数据不出机房，比公有云香

12. v1 完成后往 v2 演进的钩子

MAAS 之上叠 K8s，让同一批机器既能整租又能容器分租
计费从"整机日结"升级到"分钟级卡时 + 存储 + 流量"
门户从工单升级到自助控制台

Plan A · v1 · 卖算力 IaaS MVP

On this page