GPU Compute Plans
01 路线A 卖算力

Plan A · v1 · 卖算力 IaaS MVP

Plan A · v1 · 卖算力 IaaS MVP

目标:2 个月内让第一批客户能用上卡、能付款。
场景:单机整租,不做容器化,不做多租户细分。

1. 目标 & 非目标

  • 单机整租:一台服务器(8 卡)交付给一个客户
  • 客户能 SSH 上机,全权使用
  • 有基础的开机 / 关机 / 重装能力
  • 按天 / 按月计费,支持预付款
  • 有故障工单渠道

不做

  • 容器化、K8s、多租户
  • 竞价实例、抢占实例
  • 分布式训练调度
  • 客户自助控制台(第一批用工单)
  • 跨机房、多可用区

SLA

  • 单机月度可用性 ≥ 99%
  • 故障响应 ≤ 30 分钟
  • 交付时间 ≤ 24 小时

2. 硬件基础清单

需要项目方提供实际数据,先按典型 8 × H800 单机估算:

规格单机数量
GPUH800 80G / H100 80G / A800 80G / L40S8
CPUIntel Xeon 8480+ 56 核 × 21
内存DDR5 2TB1
系统盘960GB NVMe × 2 (RAID1)1
数据盘3.84TB NVMe × 41
网卡ConnectX-7 400G × 81
管理网25G × 21

3. 平台架构

客户

  ↓ SSH / VPN
┌───────────────────────────────────┐
│         用户门户(Web)             │
│  只需要:创建工单、查账单、看监控     │
└──────────────┬────────────────────┘

┌───────────────────────────────────┐
│         订单 & 计费(简版)          │
│  MySQL + 定时任务,日结             │
└──────────────┬────────────────────┘

┌───────────────────────────────────┐
│         裸金属管理                  │
│  MAAS / Foreman / iDRAC/iBMC       │
│  开机/关机/重装/固件更新             │
└──────────────┬────────────────────┘

┌───────────────────────────────────┐
│         GPU 服务器(裸金属)         │
│  Ubuntu 22.04 + CUDA 12.4 + Docker │
│  预装:PyTorch / DeepSpeed / vLLM   │
└──────────────┬────────────────────┘

┌───────────────────────────────────┐
│         监控                       │
│  Prometheus + DCGM + Node Exporter │
│  Grafana 大屏 + 告警到飞书           │
└───────────────────────────────────┘

4. 关键组件选型(v1 优先选"够用就好")

组件选型备选决策理由
裸金属管理MAAS(Ubuntu 官方)Foreman、CobblerMAAS 社区大,Ubuntu 生态一站式
镜像自制 Ubuntu 22.04 + CUDA + Driver每次装机 3 分钟内完成
网络隔离VLAN + iptablesCalico / OVS单租户单机,VLAN 足够
存储本地 NVMe,暂不提供共享存储Ceph / GPFSv1 不做
监控Prometheus + GrafanaZabbixGrafana 对 GPU 指标可视化好
告警Alertmanager → 飞书机器人邮件 / SMS已有飞书通道
工单飞书群 + 工单机器人Jira / Zendesk前期人少,飞书够用
计费Python 脚本 + MySQL + 手工对账商业计费系统v1 5 客户以内,别过度设计
门户Next.js + 简单登录现成 SaaS客户认账号密码就行

5. 交付流程

客户下单
  ↓ 财务确认预付款
运维分配可用机器
  ↓ MAAS 装机(15 分钟)
配置 VLAN + SSH key
  ↓ 交付信息发飞书群
客户上机 → 使用
  ↓ 到期前 3 天提醒续费

6. 计费口径

  • 卡时:按整机计费,不按单卡(v1 简化)
  • 计价周期:日结(当天 0 点扣款)
  • 停机:客户手动关机不停费;平台故障不计费
  • 超时未付款:3 天后停机保留数据 7 天

7. 安全 & 反滥用

必须做的:

  • SSH 只开客户 IP 白名单
  • 出向流量限速 100Mbps(防抓量)
  • 检测挖矿:nvidia-smi 采样 + 常见 miner 进程名
  • 定期扫描系统盘:Trojan / crypto miner / bot

不做的:

  • 深度包检测(成本太高,交给上游 IDC)

8. 关键难点

难点应对
故障恢复每台机器预留 2 张备用卡;GPU ECC 错误自动告警,工单直接派人
交付延迟MAAS 提前刷好待激活机器池,客户下单 15 分钟内交付
计费准确每天 0 点跑对账脚本,人肉核对第一个月账单
客户跑路强制预付款,欠费自动停机

9. 里程碑(8 周)

周次交付物
W1机房验收、卡型盘点、网络联调
W2MAAS 部署 + 装机流程走通
W3监控 + 告警 + 工单机器人
W4计费系统(Python 脚本版)
W5客户门户(登录 + 工单 + 账单)
W63 个白名单客户内测
W7修 bug、优化交付流程
W8正式上线,接第 5 个客户

10. 单机经济模型(假设)

假设:单机 8×H800,采购价 240 万,5 年折旧,电费 0.4 元/度,功耗 6kW,托管 3000 元/月/柜。

月成本
折旧40,000
电费(含制冷 PUE 1.4)24,192
托管3,000
带宽2,000
运维分摊3,000
合计72,192

按市场价 30-40 元/卡时估算:

  • 单机 8 卡 × 24h × 30d × 35 元 = 201,600 元/月
  • 满租毛利 = (201,600 - 72,192) / 201,600 = 64%
  • 但 v1 空置率高,实际按 50% 出租率算:100,800 - 72,192 = 28,608 元/月,毛利 28%

结论:v1 期间目标是把出租率做到 60% 以上才能有正现金流。

11. 与竞品的差异化(v1 别硬拼价格)

  • 响应快:24 小时内交付 vs 大厂 3-5 天
  • 陪跑:帮客户调 vLLM / DeepSpeed,附加咨询价值
  • 国产替代:如果卡是国产(华为昇腾、寒武纪),差异化明显
  • 本地部署:客户数据不出机房,比公有云香

12. v1 完成后往 v2 演进的钩子

  • MAAS 之上叠 K8s,让同一批机器既能整租又能容器分租
  • 计费从"整机日结"升级到"分钟级卡时 + 存储 + 流量"
  • 门户从工单升级到自助控制台

On this page