04 场景演算
场景 S0 · 5 台 8×5090 混合定位
场景 S0 · 5 台 8×5090 混合定位
✅ 实际配置:5 台机器,每台 8 张 5090,合计 40 张 RTX 5090,总显存 1.28 TB。
这个规模不是小规模验证:跑得动 235B 满血、能做真实 MaaS 商业化、能做万卡决策的实验室。三条路可并行。
一、40 张 5090 能干什么
✅ 现在就能做的(重新评估)
大模型推理(关键突破):
- Qwen3-235B FP8 TP=8:单机 8 卡 32×8=256GB 显存,够跑!(原来以为不行)
- DeepSeek-V3 671B FP8 需要 700GB+ 显存,理论上 5 台 × 8 = 40 卡拼接可行,但无 NVLink 会很慢,不推荐生产
- DeepSeek-V2 236B FP8 单机 8 卡够
- Qwen2.5-72B FP8 单机 8 卡够
- Llama-3.1-70B FP8 单机 8 卡够
- 32B / 14B / 7B 模型:随便跑,一台机能开 4-8 个副本
并发能力:
- 单机 8×5090 满载 vLLM 跑 32B FP8 → 约 3000-5000 tok/s
- 5 台机器合计 → 15,000-25,000 tok/s output(32B 单模型)
- 若跑 7B/14B 小模型或多副本混合负载,月吞吐上限可达 390-650 亿 output tokens
估算商业能力(按混合模型负载、¥5/M 混合价):
- 月理论满载营收 20-35 万
- 60% 利用率 → 12-21 万/月
- 可以真的做商业化,不是玩票
❌ 仍然不能做的
- Plan A 传统企业 IaaS 长租(消费卡合规问题)
- 分布式训练 100B+ 模型(无 NVLink,通信慢)
- 需要 80GB+ 单卡显存的极端场景
二、成本盘点
假设:5 台 8×5090 机器,每台配 Intel Xeon 或 AMD EPYC + 512GB DDR5 + 4TB NVMe + 25G 网卡。
单机月成本
| 项 | 单机 | 备注 |
|---|---|---|
| 硬件折旧 | ~10,000 | 单机整机 30 万(8×5090 卡 20 万 + 平台 10 万),3 年 |
| 电费 | ~3,250 | 4.6kW(8×575W)× 24h × 30d × 0.7 × PUE 1.4 |
| 机柜(IDC) | 2,000 | 独立柜位 |
| 带宽 | 2,000 | 100M 独享 |
| 运维分摊 | 3,000 | 团队 5-8 人 / 5 机 |
| 合计 | ~20,250 |
5 台合计月成本 ≈ 10 万元
如果放家里/办公室(无 IDC 托管):
- 免机柜 - 2,000 = 18,250/机
- 电费家用可能更高(0.8-1.0 元/度):+1,000
- 5 台合计 ≈ 9.6-10 万/月
三、三条路可并行
之前是单选题,现在 40 卡够大,可以并行做三件事:
路线一:Benchmark Lab(30% 资源)
目的:为万卡决策采数据
- 用 1-2 台专门测试
- 8 周内跑完 500+ 数据点
- 产出万卡采购决策报告
路线二:真实 MaaS 商业化(60% 资源)
目的:验证 PMF、有真实收入
- 用 3 台跑生产 MaaS
- OpenAI 兼容 API + 5-8 个模型
- 目标:3 个月内 100 付费开发者,月流水 3-8 万
路线三:私有部署 / 内部使用(10% 资源)
目的:给项目方自身 / 关联团队用
- 微调、试验、内部工具
- 有闲置能力时消化任务
四、机器分工建议
| 机器 | 用途 | 部署 |
|---|---|---|
| M1:8×5090 | 生产 MaaS - 大模型主力 | Qwen3-72B FP8 TP=8 单副本 |
| M2:8×5090 | 生产 MaaS - 中型模型 | 4 副本 × (Qwen2.5-32B FP8 TP=2) |
| M3:8×5090 | 生产 MaaS - 小型模型 | 8 副本 × 单卡(14B / 9B / 嵌入 / 视觉) |
| M4:8×5090 | Benchmark 测试专用 | 每天跑新组合,不上生产 |
| M5:8×5090 | 弹性池 + 微调训练 | LoRA / QLoRA 训练 + 抢占实例 |
五、模型清单(生产 MaaS 建议)
| 模型 | 卡数 | 定位 | 定价参考 |
|---|---|---|---|
| Qwen3-72B / DeepSeek-V2-236B | 单机 8 卡 | 旗舰对话 | ¥3/M in ¥8/M out |
| Qwen2.5-32B / GLM-4-32B | TP=2 (2 卡) | 中端主力 | ¥1.5/M in ¥5/M out |
| DeepSeek-Coder-V2-Lite / Qwen2.5-Coder-14B | 单卡 | 代码 | ¥1.5/M in ¥6/M out |
| Qwen2.5-14B / GLM-4-9B | 单卡 | 快速对话 | ¥0.8/M in ¥3/M out |
| BGE-M3 / Qwen3-Embedding | 单卡(共享) | 嵌入 | ¥0.5/M |
| Qwen2-VL-7B / InternVL2-8B | 单卡 | 视觉 | ¥2/M in ¥8/M out |
关键:单机 8 卡跑一个 72B 模型 vs 8 个独立 7B/14B 实例,二者的营收/资源效率完全不同,需要实测选择。
六、真实商业化目标
3 个月目标(保守)
- 20 个付费开发者
- 月流水 0.3-0.5 万
- 跑通商业化闭环
6 个月目标(正常)
- 50-100 个付费开发者
- 月流水 0.8-1.5 万
- 探索提价或高利用率模型
12 个月目标(乐观)
- 300+ 付费开发者,10-20 个企业客户
- 月流水 3-5 万
- 有能力融 Seed,扩到 20 台机器 / 160 卡
这个规模可以拿融资讲故事了(ARR 40-60 万,进入 Seed 融资门槛)。
七、8 周落地计划
第 1 周:
- 5 台机器组网(Mellanox / 交换机 25G)
- Ubuntu 24.04 + CUDA 12.6 + Driver 565+
- Docker + K8s 集群搭起(哪怕单节点)
第 2 周:
- vLLM / SGLang 部署到 M1-M3
- 主流 6 个模型跑通
- 简单 OpenAI 兼容网关(FastAPI)
第 3 周:
- 计费 + 限流(Redis + PostgreSQL)
- 用户注册 / API Key 管理
- 支付集成(Stripe 或国内 Ping++)
第 4 周:
- 5 个种子开发者内测
- 修 bug
- M4 开始基准测试
第 5-6 周:
- 正式对外开放
- 免费额度拉新(每人 100 万 tokens/月)
- 内容营销(技术博客 + 开发者社区推广)
第 7 周:
- 收集第一批数据
- 定价优化
- M4 基准测试出第一波报告
第 8 周:
- 收入 breakeven
- 决定加卡 / 融资 / 转 SaaS 应用
八、40 卡混合 Plan C 设计
优先级层级:
- P0:私有微调客户 / 关联团队使用(10% 资源)
- P1:Plan B 保障 API(60% 资源,付费客户)
- P2:Plan B 抢占 API(20% 资源,异步任务 3 折)
- P3:Benchmark 测试(10% 资源)
调度规则:
- P1 峰值时可抢占 P2
- P3 只在夜间跑(避开高峰)
- P0 永远独占资源,不参与共享
九、关键坑(40 卡规模)
- 网络:5 台机器互联至少 25G,跨机 TP 会瓶颈
- 散热:40 卡满载 20kW+ 热量,机箱 + 机柜 + 房间空调都要跟上
- 电力:单机 4.6kW 峰值,家用/办公 220V 20A 只能跑 3 台 → 需要工业电或分散布点
- 驱动稳定性:Blackwell 驱动 565+ 有些坑,锁定版本
- NVIDIA 授权:40 张消费卡对外做 API 服务,低调 → 不上首页官网,只做技术社区
- 模型选型陷阱:跑 Qwen3-72B 满血听起来爽,但客户可能更愿意付 32B 的钱 → 数据说话
- 合规:AI 生成内容备案(境内提供服务) + 内容审核
十、重新判断
这个规模(40 卡 5090)三件事都值得做:
- 主线:真实商业化 — 6-12 个月做出月流水 12-20 万的 API 生意,为万卡融资铺路
- 辅线:Benchmark Lab — 8 周内出万卡采购决策报告
- 备线:私有服务 — 关联团队 / 内部使用消化闲置
万卡路径依然清晰:
40 卡 5090 商业化验证(3-6 月)
↓ 有月流水 20 万+
Seed 融资 5000 万-1 亿(8 月)
↓
80-160 卡 5090 或转 H100 100 卡(12 月)
↓ 验证运维 + 卡型
A 轮融资 2-5 亿(18 月)
↓
2000 卡 H200(24 月)
↓
万卡集群(36 月)核心 insight:40 张 5090 是"能做小规模真实商业化的最小规模",不再是玩具。项目方这 3 个月要做的是先跑真实收入,不是纯测试。
下一步建议:补充生产 MaaS 的技术栈、部署清单与定价页面草稿,并在 S0-production-plan/ 子目录中明确 M1-M5 每台机器的配置、模型、监控与计费。