GPU Compute Plans
01 路线A 卖算力

Plan A · v3 · 跨区域规模化

Plan A · v3 · 跨区域规模化

目标:多机房、多可用区,成为区域头部或全国 Tier-2 玩家。
时间:v2 稳定后 6-12 个月。

1. 相比 v2 的关键升级

维度v2v3
规模单 IDC,几十台多 IDC、跨地域,几百台起
网络单机房 IB / RoCE跨机房专线 + BGP
存储单机房 JuiceFS跨区域对象存储 + 就近读
调度Cluster 内跨集群 Federation
灾备主备 + 跨机房迁移
计费单币种、单税制多币种、多税制、发票自动化
合规国内国内 + 海外备案

2. 架构演进

                     ┌────────────────────────┐
                     │  全球控制面(Region 无关) │
                     │  账号、订单、门户、鉴权     │
                     └───────────┬────────────┘

        ┌────────────────────────┼────────────────────────┐
        │                        │                        │
   ┌────▼─────┐             ┌────▼─────┐             ┌────▼─────┐
   │ Region A │             │ Region B │             │ Region C │
   │  北京    │             │  上海    │             │  新加坡   │
   │  Kube    │             │  Kube    │             │  Kube    │
   │  Cluster │             │  Cluster │             │  Cluster │
   └──────────┘             └──────────┘             └──────────┘
        │                        │                        │
        └────────────────────────┴────────────────────────┘
                  跨 Region 专线 + 私有 CDN

3. 关键新特性

3.1 跨区域调度

  • 客户下单时选 Region 或选"就近"
  • 平台内部把大客户预留跨 Region 冗余
  • 灾备演练:模拟单 Region 断电,业务 15 分钟内切走

3.2 抢占实例市场化

  • 抢占实例统一竞价市场
  • 客户出价 + 平台底价 + 空置率算法
  • 与 Plan B 侧共池:Plan B 缺卡时反向抢占 Plan A 抢占实例

3.3 训练任务托管

  • MaaS 版训练:客户只交数据 + 配置,平台自动分布式训练
  • 集成 Ray、Deepspeed、Megatron-LM
  • 结果按 checkpoint 存 S3

3.4 私有部署 / 联邦学习

  • 客户可要求"我这批算力独占,物理机架封闭"
  • 数据不出机房、审计日志上链
  • 医疗 / 金融客户目标

4. 组件替换清单

组件v2v3
集群管理单集群 K8sCluster API + Karmada 多集群
CNICalicoCilium(eBPF + Hubble)
存储JuiceFSJuiceFS + Weka(高性能层)
服务网格Istio 或 Linkerd
CDNCloudflare / 自建边缘节点
账单PostgresPostgres + ClickHouse(分析)
客服飞书群Zendesk / 自研工单系统

5. 计费系统重构

  • 计费引擎完全独立化,暴露 gRPC
  • 支持多币种、多汇率
  • 阶梯定价、优惠券、代金券、企业合约
  • 发票:电子普票 / 增值税专票 / 海外税票
  • API:客户可拉自己所有账单原始数据

6. 关键难点

难点应对
跨机房延迟训练任务不跨机房;推理可以就近部署副本
数据合规国内数据不跨境;海外区域独立合规栈
多币种计费系统抽象为"计量单位 × 单价 × 汇率"
网络抖动跨区域调用走专线,失败降级本 Region
成本控制按 Region 单独核算 P&L,及时砍亏损区域

7. 里程碑(6-12 个月)

季度交付
Q1第二机房上线(同城双活)
Q2Karmada 多集群 + 跨集群调度
Q3海外首个节点(新加坡 / 香港)
Q4私有部署产品线 + 灾备演练

8. 规模化的商业指标

到 v3 时应该看的指标:

  • 单卡月营收:≥ 15,000 元(H800)
  • 平均出租率:≥ 85%(含抢占)
  • 平均毛利率:≥ 45%
  • 客户结构:Top 10 客户 < 40% 营收(防单点)
  • NPS:≥ 40
  • 年增长率:≥ 100%(早期)

9. 风险

  • 供应链风险:GPU 断供 / 涨价 / 制裁
  • 规模不经济:跨区域运维成本快速上升
  • 价格战:大厂降价 30%,我方跟不跟
  • 合规风险:AI 模型使用管理办法收紧
  • 人才风险:优秀 SRE 被挖角

10. 与竞品在 v3 阶段的差异化

竞争维度差异化策略
价格不打头部对手(阿里/腾讯/华为);打二线(AWS/Azure 国内)
卡型混合国产 + 英伟达,客户按合规选
服务中大企业 1v1 SA + 白手套上机
生态建立本地 AI 开发者社区、办 meetup
联合与开源大模型团队官方合作(Qwen / DeepSeek 生态位)

On this page