01 路线A 卖算力
Plan A · v1 · 卖算力 IaaS MVP
Plan A · v1 · 卖算力 IaaS MVP
目标:2 个月内让第一批客户能用上卡、能付款。
场景:单机整租,不做容器化,不做多租户细分。
1. 目标 & 非目标
做:
- 单机整租:一台服务器(8 卡)交付给一个客户
- 客户能 SSH 上机,全权使用
- 有基础的开机 / 关机 / 重装能力
- 按天 / 按月计费,支持预付款
- 有故障工单渠道
不做:
- 容器化、K8s、多租户
- 竞价实例、抢占实例
- 分布式训练调度
- 客户自助控制台(第一批用工单)
- 跨机房、多可用区
SLA:
- 单机月度可用性 ≥ 99%
- 故障响应 ≤ 30 分钟
- 交付时间 ≤ 24 小时
2. 硬件基础清单
需要项目方提供实际数据,先按典型 8 × H800 单机估算:
| 项 | 规格 | 单机数量 |
|---|---|---|
| GPU | H800 80G / H100 80G / A800 80G / L40S | 8 |
| CPU | Intel Xeon 8480+ 56 核 × 2 | 1 |
| 内存 | DDR5 2TB | 1 |
| 系统盘 | 960GB NVMe × 2 (RAID1) | 1 |
| 数据盘 | 3.84TB NVMe × 4 | 1 |
| 网卡 | ConnectX-7 400G × 8 | 1 |
| 管理网 | 25G × 2 | 1 |
3. 平台架构
客户
│
↓ SSH / VPN
┌───────────────────────────────────┐
│ 用户门户(Web) │
│ 只需要:创建工单、查账单、看监控 │
└──────────────┬────────────────────┘
↓
┌───────────────────────────────────┐
│ 订单 & 计费(简版) │
│ MySQL + 定时任务,日结 │
└──────────────┬────────────────────┘
↓
┌───────────────────────────────────┐
│ 裸金属管理 │
│ MAAS / Foreman / iDRAC/iBMC │
│ 开机/关机/重装/固件更新 │
└──────────────┬────────────────────┘
↓
┌───────────────────────────────────┐
│ GPU 服务器(裸金属) │
│ Ubuntu 22.04 + CUDA 12.4 + Docker │
│ 预装:PyTorch / DeepSpeed / vLLM │
└──────────────┬────────────────────┘
↓
┌───────────────────────────────────┐
│ 监控 │
│ Prometheus + DCGM + Node Exporter │
│ Grafana 大屏 + 告警到飞书 │
└───────────────────────────────────┘4. 关键组件选型(v1 优先选"够用就好")
| 组件 | 选型 | 备选 | 决策理由 |
|---|---|---|---|
| 裸金属管理 | MAAS(Ubuntu 官方) | Foreman、Cobbler | MAAS 社区大,Ubuntu 生态一站式 |
| 镜像 | 自制 Ubuntu 22.04 + CUDA + Driver | 每次装机 3 分钟内完成 | |
| 网络隔离 | VLAN + iptables | Calico / OVS | 单租户单机,VLAN 足够 |
| 存储 | 本地 NVMe,暂不提供共享存储 | Ceph / GPFS | v1 不做 |
| 监控 | Prometheus + Grafana | Zabbix | Grafana 对 GPU 指标可视化好 |
| 告警 | Alertmanager → 飞书机器人 | 邮件 / SMS | 已有飞书通道 |
| 工单 | 飞书群 + 工单机器人 | Jira / Zendesk | 前期人少,飞书够用 |
| 计费 | Python 脚本 + MySQL + 手工对账 | 商业计费系统 | v1 5 客户以内,别过度设计 |
| 门户 | Next.js + 简单登录 | 现成 SaaS | 客户认账号密码就行 |
5. 交付流程
客户下单
↓ 财务确认预付款
运维分配可用机器
↓ MAAS 装机(15 分钟)
配置 VLAN + SSH key
↓ 交付信息发飞书群
客户上机 → 使用
↓ 到期前 3 天提醒续费6. 计费口径
- 卡时:按整机计费,不按单卡(v1 简化)
- 计价周期:日结(当天 0 点扣款)
- 停机:客户手动关机不停费;平台故障不计费
- 超时未付款:3 天后停机保留数据 7 天
7. 安全 & 反滥用
必须做的:
- SSH 只开客户 IP 白名单
- 出向流量限速 100Mbps(防抓量)
- 检测挖矿:
nvidia-smi采样 + 常见 miner 进程名 - 定期扫描系统盘:Trojan / crypto miner / bot
不做的:
- 深度包检测(成本太高,交给上游 IDC)
8. 关键难点
| 难点 | 应对 |
|---|---|
| 故障恢复 | 每台机器预留 2 张备用卡;GPU ECC 错误自动告警,工单直接派人 |
| 交付延迟 | MAAS 提前刷好待激活机器池,客户下单 15 分钟内交付 |
| 计费准确 | 每天 0 点跑对账脚本,人肉核对第一个月账单 |
| 客户跑路 | 强制预付款,欠费自动停机 |
9. 里程碑(8 周)
| 周次 | 交付物 |
|---|---|
| W1 | 机房验收、卡型盘点、网络联调 |
| W2 | MAAS 部署 + 装机流程走通 |
| W3 | 监控 + 告警 + 工单机器人 |
| W4 | 计费系统(Python 脚本版) |
| W5 | 客户门户(登录 + 工单 + 账单) |
| W6 | 3 个白名单客户内测 |
| W7 | 修 bug、优化交付流程 |
| W8 | 正式上线,接第 5 个客户 |
10. 单机经济模型(假设)
假设:单机 8×H800,采购价 240 万,5 年折旧,电费 0.4 元/度,功耗 6kW,托管 3000 元/月/柜。
| 项 | 月成本 |
|---|---|
| 折旧 | 40,000 |
| 电费(含制冷 PUE 1.4) | 24,192 |
| 托管 | 3,000 |
| 带宽 | 2,000 |
| 运维分摊 | 3,000 |
| 合计 | 72,192 |
按市场价 30-40 元/卡时估算:
- 单机 8 卡 × 24h × 30d × 35 元 = 201,600 元/月
- 满租毛利 = (201,600 - 72,192) / 201,600 = 64%
- 但 v1 空置率高,实际按 50% 出租率算:100,800 - 72,192 = 28,608 元/月,毛利 28%
结论:v1 期间目标是把出租率做到 60% 以上才能有正现金流。
11. 与竞品的差异化(v1 别硬拼价格)
- 响应快:24 小时内交付 vs 大厂 3-5 天
- 陪跑:帮客户调 vLLM / DeepSpeed,附加咨询价值
- 国产替代:如果卡是国产(华为昇腾、寒武纪),差异化明显
- 本地部署:客户数据不出机房,比公有云香
12. v1 完成后往 v2 演进的钩子
- MAAS 之上叠 K8s,让同一批机器既能整租又能容器分租
- 计费从"整机日结"升级到"分钟级卡时 + 存储 + 流量"
- 门户从工单升级到自助控制台