00 · 决策矩阵与对比总表
00 · 决策矩阵与对比总表
一页看懂三条路线,给管理层做投资决策用。
三条路线一览
| 维度 | A. 卖算力 IaaS | B. 卖 Token MaaS | C. 混合(推荐) |
|---|---|---|---|
| 商业模式 | 按卡时/卡月租用 | 按 token / 请求计费 | 底层共池,双产品线 |
| 主要客户 | 训练团队、科研、渲染、加密 | AI 应用开发者、SaaS | 两类客户都覆盖 |
| 毛利率 | 20–35% | 50–70% | 综合 35–55% |
| 上线周期 | 2–3 个月 | 1–2 个月 | 1 个月 B + 2 个月 A |
| 技术密度 | 运维密集 | 模型工程密集 | 双向都要有人 |
| 客户粘性 | 低(价格战) | 中高(API 集成) | 中高 |
| 议价能力 | 弱 | 中 | 中强 |
| 规模效应 | 电价 + 空置率 | 推理效率 + KV 缓存命中 | 空置卡自动灌 MaaS |
| 主要风险 | 空置率、电费波动 | 模型迭代、token 定价战 | 调度复杂度 |
| 主要护城河 | 供应链 + 长约客户 | 推理工程 + 模型速度 | 弹性调度 + 客户组合 |
| 合规要求 | 中(挖矿/滥用识别) | 高(生成式内容、备案) | 高 |
快速决策树
有闲置卡吗?
│
是 ────┴──── 否(继续买卡再看)
│
客户结构如何?
│
┌─────────┼─────────┐
│ │ │
大 B 训练 应用开发者 两者都有
│ │ │
Plan A Plan B Plan C ← 90% 情况下推荐三个"必须选"的关键判断
1. 电价是不是 <0.35 元/度?
- 是 → Plan A 有利润空间,值得深耕 IaaS
- 否 → 只做 Plan B,把算力当"生产资料"消耗掉
2. 有没有 30 天内能吃下所有算力的大客户?
- 有 → 先做 Plan A,白名单大客户上量
- 没有 → 先做 Plan B,靠 API 快速起量、避免空置
3. 团队里有推理优化的人吗?
- 有 → Plan B / C 有竞争力
- 没有 → Plan A + 采购成熟 MaaS SaaS 转售
结论与建议
同时启动 A + B,但节奏错开:
| 时间 | Plan A(IaaS) | Plan B(MaaS) |
|---|---|---|
| Week 1-2 | 硬件盘点、机房验收 | 3 模型选型 + vLLM 部署 |
| Week 3-4 | 计费系统对接 | OpenAI 兼容 API 上线 |
| Week 5-8 | 白名单大客户上量 | 10 个开发者内测 + 定价 |
| Week 9-12 | 自助注册台 | 多引擎切换 + prefix cache |
| Q2 | K8s 容器化 | 模型市场 |
| Q3 | 跨区域 | 微调托管 |
混合模式的关键设计:
- 底层 K8s 池化所有 GPU
- MaaS 常驻高优先级(保 SLA)
- 客户 IaaS 请求进来 → 现从 MaaS 侧腾空 → 30 分钟内交付
- MaaS 侧的模型可以做低价"抢占实例"版(客户容忍 30 分钟中断即打 4 折)
关键数据(后续需要补齐)
- 卡型明细(H800/H100/A800/A100/4090/L40S 各多少张)
- 单机配置(CPU/内存/NVMe/网卡)
- 网络(IB 还是 RoCE,带宽?跨机延迟?)
- 机房位置 + 电价 + PUE
- 目标客户画像(有没有种子客户?)
- 团队人力(运维 / 推理工程 / 前端 / 计费 各几人)
- 初始预算 & 期望回本周期
项目方补完这些后,可将方案中的假设替换为实际数据,重新算一遍单机经济模型。