01 路线A 卖算力
Plan A · v3 · 跨区域规模化
Plan A · v3 · 跨区域规模化
目标:多机房、多可用区,成为区域头部或全国 Tier-2 玩家。
时间:v2 稳定后 6-12 个月。
1. 相比 v2 的关键升级
| 维度 | v2 | v3 |
|---|---|---|
| 规模 | 单 IDC,几十台 | 多 IDC、跨地域,几百台起 |
| 网络 | 单机房 IB / RoCE | 跨机房专线 + BGP |
| 存储 | 单机房 JuiceFS | 跨区域对象存储 + 就近读 |
| 调度 | Cluster 内 | 跨集群 Federation |
| 灾备 | 无 | 主备 + 跨机房迁移 |
| 计费 | 单币种、单税制 | 多币种、多税制、发票自动化 |
| 合规 | 国内 | 国内 + 海外备案 |
2. 架构演进
┌────────────────────────┐
│ 全球控制面(Region 无关) │
│ 账号、订单、门户、鉴权 │
└───────────┬────────────┘
│
┌────────────────────────┼────────────────────────┐
│ │ │
┌────▼─────┐ ┌────▼─────┐ ┌────▼─────┐
│ Region A │ │ Region B │ │ Region C │
│ 北京 │ │ 上海 │ │ 新加坡 │
│ Kube │ │ Kube │ │ Kube │
│ Cluster │ │ Cluster │ │ Cluster │
└──────────┘ └──────────┘ └──────────┘
│ │ │
└────────────────────────┴────────────────────────┘
跨 Region 专线 + 私有 CDN3. 关键新特性
3.1 跨区域调度
- 客户下单时选 Region 或选"就近"
- 平台内部把大客户预留跨 Region 冗余
- 灾备演练:模拟单 Region 断电,业务 15 分钟内切走
3.2 抢占实例市场化
- 抢占实例统一竞价市场
- 客户出价 + 平台底价 + 空置率算法
- 与 Plan B 侧共池:Plan B 缺卡时反向抢占 Plan A 抢占实例
3.3 训练任务托管
- MaaS 版训练:客户只交数据 + 配置,平台自动分布式训练
- 集成 Ray、Deepspeed、Megatron-LM
- 结果按 checkpoint 存 S3
3.4 私有部署 / 联邦学习
- 客户可要求"我这批算力独占,物理机架封闭"
- 数据不出机房、审计日志上链
- 医疗 / 金融客户目标
4. 组件替换清单
| 组件 | v2 | v3 |
|---|---|---|
| 集群管理 | 单集群 K8s | Cluster API + Karmada 多集群 |
| CNI | Calico | Cilium(eBPF + Hubble) |
| 存储 | JuiceFS | JuiceFS + Weka(高性能层) |
| 服务网格 | 无 | Istio 或 Linkerd |
| CDN | 无 | Cloudflare / 自建边缘节点 |
| 账单 | Postgres | Postgres + ClickHouse(分析) |
| 客服 | 飞书群 | Zendesk / 自研工单系统 |
5. 计费系统重构
- 计费引擎完全独立化,暴露 gRPC
- 支持多币种、多汇率
- 阶梯定价、优惠券、代金券、企业合约
- 发票:电子普票 / 增值税专票 / 海外税票
- API:客户可拉自己所有账单原始数据
6. 关键难点
| 难点 | 应对 |
|---|---|
| 跨机房延迟 | 训练任务不跨机房;推理可以就近部署副本 |
| 数据合规 | 国内数据不跨境;海外区域独立合规栈 |
| 多币种 | 计费系统抽象为"计量单位 × 单价 × 汇率" |
| 网络抖动 | 跨区域调用走专线,失败降级本 Region |
| 成本控制 | 按 Region 单独核算 P&L,及时砍亏损区域 |
7. 里程碑(6-12 个月)
| 季度 | 交付 |
|---|---|
| Q1 | 第二机房上线(同城双活) |
| Q2 | Karmada 多集群 + 跨集群调度 |
| Q3 | 海外首个节点(新加坡 / 香港) |
| Q4 | 私有部署产品线 + 灾备演练 |
8. 规模化的商业指标
到 v3 时应该看的指标:
- 单卡月营收:≥ 15,000 元(H800)
- 平均出租率:≥ 85%(含抢占)
- 平均毛利率:≥ 45%
- 客户结构:Top 10 客户 < 40% 营收(防单点)
- NPS:≥ 40
- 年增长率:≥ 100%(早期)
9. 风险
- 供应链风险:GPU 断供 / 涨价 / 制裁
- 规模不经济:跨区域运维成本快速上升
- 价格战:大厂降价 30%,我方跟不跟
- 合规风险:AI 模型使用管理办法收紧
- 人才风险:优秀 SRE 被挖角
10. 与竞品在 v3 阶段的差异化
| 竞争维度 | 差异化策略 |
|---|---|
| 价格 | 不打头部对手(阿里/腾讯/华为);打二线(AWS/Azure 国内) |
| 卡型 | 混合国产 + 英伟达,客户按合规选 |
| 服务 | 中大企业 1v1 SA + 白手套上机 |
| 生态 | 建立本地 AI 开发者社区、办 meetup |
| 联合 | 与开源大模型团队官方合作(Qwen / DeepSeek 生态位) |