GPU 算力商业化最终报告

调研范围：/Users/aaron/Documents/GPU-Compute-Plans 全部 53 份文档报告时间：2026-07-05 定位：对“从 40 卡 RTX 5090 到万卡 AI 云集群”全生命周期的综合提炼

一、执行摘要

本项目是一套面向 GPU 算力商业化的完整运营手册，作者绒绒（OpenClaw），覆盖商业模式、部署路径、运营体系、财务模型、安全合规、销售获客、组织架构、融资退出与风险管理等 12 个维度。

核心结论：

推荐路线：Plan C（混合模式）。底层算力共池，同时经营 IaaS 长租与 MaaS API，可将空置率风险转化为低价/抢占收入，综合毛利率 35–55%，抗风险能力最强。
当前抓手：40 卡 5090 不是玩具，而是真实商业化起点。5 台 × 8 卡 = 40 卡，总显存 1.28 TB，可跑 Qwen3-235B FP8 单机，月理论营收上限 20–35 万，实际 60% 利用率可做到 12–21 万。
三件事情要并行：60% 资源跑真实 MaaS 商业化、30% 做万卡决策的 Benchmark Lab、10% 私有/内部使用。
万卡路径清晰但不可跳过步骤：40 卡验证（3–6 月）→ Seed 5000 万–1 亿 → 80–160 卡或 100 H100（12 月）→ A 轮 2–5 亿 → 2000 卡 H200（24 月）→ 万卡（36 月）。Phase 2 必须“租 100 卡 H100 实测”，5090 数据不足以支撑万卡采购。
护城河在 AI 安全 + 中立第三方 + 企业服务：复用 OpenClaw Security Console 现有资产，做 Prompt 注入/越狱/RAG 污染/MCP Agent 安全，是国内 MaaS 最稀缺的差异化能力。

二、商业模式：三条路线对比

维度	Plan A：卖算力 IaaS	Plan B：卖 Token MaaS	Plan C：混合模式（推荐）
商业模式	按卡时/卡月租用	按 token / 请求计费	底层共池，双产品线
主要客户	训练团队、科研、渲染	AI 应用开发者、SaaS	两类都覆盖
毛利率	20–35%	50–70%	35–55% 综合
上线周期	2–3 个月	1–2 个月	1 个月 B + 2 个月 A
客户粘性	低（价格战）	中高（API 集成）	中高
议价能力	弱	中	中强
主要风险	空置率、电费波动	模型迭代、token 定价战	调度复杂度
核心护城河	供应链 + 长约客户	推理工程 + 模型速度	弹性调度 + 客户组合

快速决策树： 有闲置卡 → 客户结构决定路径 → 大 B 训练选 A、应用开发者选 B、两者都有 90% 情况选 C。

三个关键判断：

电价 < 0.35 元/度 → Plan A 有利润空间；
30 天内能吃下所有算力的大客户 → 先做 A；
有推理优化团队 → Plan B/C 有竞争力。

三、三条路线的演进节奏

Plan A：卖算力 IaaS

阶段	交付形态	关键升级	周期
v1	单机整租 / 裸金属	MAAS 装机、按天/月计费、工单制	8 周
v2	K8s 容器分租	1 卡起租、MIG/Time-slicing、Volcano 调度、竞价市场	12 周
v3	跨区域规模化	多 Region、Karmada、多币种、灾备、私有部署	6–12 月

v1 单机 8×H800 月成本 ≈ 7.2 万，满租 20 万/月，但 60% 出租率毛利仅 28%；
v2 通过混合租 + 抢占灌 Plan B，毛利可提到 66%；
v3 规模化指标：单卡月营收 ≥ 1.5 万、出租率 ≥ 85%、毛利率 ≥ 45%。

Plan B：卖 Token MaaS

阶段	模型数	引擎	关键特性	单机月营收（8×H800）
v1	3–5 个	vLLM	OpenAI 兼容 API、按 token 计费	6.2 万
v2	15–25 个	vLLM + SGLang + TRT-LLM	智能路由、prefix cache、抢占 3 折、批量 API	15–19 万
v3	10000+（含社区）	多引擎	模型市场、微调工作室、Agent/RAG 托管、应用商店	生态 GMV 30%+

v1 目标 6 周上线；
v2 是核心提效阶段，同一台机器营收从 6 万拉到 15–19 万，靠软件工程；
v3 不建议早做，需“营收 5000 万/年 + 开发者过万”再启动。

引擎选型结论： vLLM 是 must-have（70% 请求），SGLang 补长上下文/结构化输出（20%），TRT-LLM 谨慎选（低延迟小模型），TGI 别用。

Plan C：混合模式（首推）

优先级设计：

P0：IaaS 长租客户，不可抢占，SLA 99.9%；
P1：MaaS 保障 API，付费用户默认；
P2：Plan A 抢占实例 + 弹性训练，3–4 折，30s grace；
P3：Plan B 抢占 API + 批量任务，3–5 折。

核心约束： P0 + P1 总量 ≤ 物理容量 80%，预留 20% 弹性；P2/P3 跑剩余容量。

经济模型（单机 8×H800，月成本 7.2 万）：

纯 A 满租：20 万营收，64% 毛利；
纯 A 60% 出租：12 万营收，40% 毛利；
Plan C 混合：16–22 万营收，50–70% 毛利。

实施节奏： M1–M3 逻辑分区 → M4–M6 算力池化 → M7–M9 完整动态调度 → M10–M12 抢占市场化。

四、当前实际场景：40 卡 RTX 5090

硬件能力

5 台 × 8 卡 RTX 5090，合计 40 卡，总显存 1.28 TB；
可单机跑 Qwen3-235B FP8、DeepSeek-V2 236B FP8、Qwen2.5-72B FP8；
不建议跑 DeepSeek-V3 671B（无 NVLink，跨机通信慢）；
单机满载 32B FP8 约 3000–5000 tok/s，5 台合计 1.5–2.5 万 tok/s。

成本

单机月成本 ≈ 2.4 万，5 台合计 ≈ 12 万/月（硬件折旧 1 万 + 电费 0.7 万 + 机柜 0.2 万 + 带宽 0.2 万 + 运维分摊 0.3 万）。

机器分工

机器	用途	部署
M1	生产 MaaS 旗舰	Qwen3-72B FP8 TP=8 单副本
M2	生产 MaaS 中型主力	4 副本 × Qwen2.5-32B FP8 TP=2
M3	生产 MaaS 小型舰队	8 副本 × 单卡（14B/9B/嵌入/视觉）
M4	Benchmark 测试专用	8 周跑 500+ 数据点
M5	弹性池 + 微调	LoRA/QLoRA + Spot API

商业化目标

时点	付费开发者	月流水	净利
3 个月	20 人	3–5 万	接近覆盖成本
6 个月	50–100 人	8–15 万	5–8 万
12 个月	300+ + 10–20 企业	30–50 万	可融 Seed

8 周落地计划

W1：组网、Ubuntu 24.04 + CUDA 12.6 + Driver 565+、K8s 集群；
W2：vLLM/SGLang 部署 M1–M3，跑通 6 个模型，FastAPI 网关；
W3：计费 + 限流 + 用户注册/API Key + 支付；
W4：5 个种子开发者内测，M4 开始基准测试；
W5–W6：正式开放、免费额度拉新、内容营销；
W7：收集数据、定价优化、M4 出第一波报告；
W8：收入 breakeven、决定加卡/融资/转 SaaS。

五、规模化场景路径

场景	规模	月成本	月营收目标	毛利率	回本周期	主导策略
S0 实际	40 卡 5090	12 万	12–50 万	30–60%	视节奏	MaaS 60% + Benchmark 30%
S1 创业起步	100 卡 H800	112 万	132–160 万	20–30%	24–36 月	Plan C 均衡
S2 中型混合	500 卡混合	363 万	560 万	~47%	12–15 月	Plan C 均衡
S3 跨区域	1000 卡	835 万	1450 万	~48%	8–12 月	Plan C + 私有部署
S4 国内自持	200 卡昇腾	285 万	320 万	12%现金流/85%综合	3–5 年	Plan A + 内部平台
S5 东南亚出海	300 卡 H100	445 万	600 万	~50%	15–18 月	Plan B 主打
S6 万卡目标	10000 卡	8000 万–1.5 亿	1.5–2.5 亿	47–68%	18–30 月	全业态

演进路径： 先从 S0/S1 起步 → 3 个月后看客户结构决定升级到 S2/S4/S5 → 有融资 + 单区域满载 70%+ 再考虑 S3。

六、经济模型与关键杠杆

单机成本（8×H800）

项目	金额/月
折旧（240 万/5 年）	4 万
电费（6kW，0.4 元/度，PUE 1.35）	2.33 万
机柜	0.3 万
带宽	0.3 万
运维分摊	0.3 万
合计	≈ 7.2 万/月

电价敏感度： 电价每涨 0.05 元 → 单机月成本 +0.5 万，回本延迟 1 个月。

单机营收对比

模式	满载月营收	实际 80%	毛利率
Plan A 独占	20.2 万	16.1 万	57%
Plan A 60% 出租	12.1 万	—	42%
Plan B v2	15 万	12 万	42%
Plan C 混合	22 万	18 万	61%

单卡月毛利目标

卡型	单卡月成本	目标营收	目标毛利率
H800 80G	8750	1.5–2.5 万	40–60%
H100 80G	1.2 万	2.5–3.5 万	50–65%
L40S 48G	4500	0.6–1 万	35–45%
4090 24G	2800	0.35–0.55 万	20–40%

利润关键杠杆

Prefix Cache：命中率从 20% 提升到 60%，40 卡月收入 +36 万，零成本；
Idle Loss 治理：Spot API、动态模型上下架、副本自动缩容；
电价与 PUE：选址内蒙/张家口/贵州，锁 3 年电价协议；
客户结构：Top 10 客户营收占比 < 40%；
量化：FP8（H800/H100）> AWQ（A100）> BF16。

七、技术架构与选型

40 卡阶段最小技术栈

Ubuntu 24.04 + CUDA 12.6 + NVIDIA Driver 565+
K8s + GPU Operator
Nginx / FastAPI API Gateway
vLLM（主力）+ SGLang（长上下文/结构化）
PostgreSQL + Redis
Prometheus + DCGM + Grafana + Alertmanager
MinIO / NFS

18 层标准参考架构（长期）

层级	选型	备选	迁移路径
Edge CDN	Cloudflare	阿里云 CDN	国内合规时切阿里
LB	Nginx	Envoy	规模大时切 Envoy
API Gateway	FastAPI	APISIX / Kong	QPS>5000 切 APISIX
调度	K8s + Volcano	Slurm / Ray	跨区加 Karmada
推理引擎	vLLM + SGLang + TRT-LLM	TGI / LMDeploy	长期可自研
队列	Redis Streams	Kafka	QPS>500 切 Kafka
主数据库	PostgreSQL	MySQL / CockroachDB	多区切 CockroachDB
缓存	Redis	KeyDB / Dragonfly	Cluster
分析仓库	ClickHouse	Doris / StarRocks	Cluster
对象存储	MinIO	阿里云 OSS	混合
文件存储	NFS → JuiceFS	CephFS / Weka	规模化升 Weka
网络	Calico → Cilium	Flannel	eBPF
监控	Prometheus + Grafana	VictoriaMetrics	大规模替换
日志	Loki	ELK	集群化
Tracing	Tempo / Jaeger	Zipkin	OTel
密钥	HashiCorp Vault	AWS KMS	Enterprise
CI/CD	GitLab CI + ArgoCD	GitHub Actions	GitOps
前端	Next.js	Vue / Nuxt	自建 Nginx

关键扩展决策点

< 100 卡：systemd + docker 够用；≥ 100 卡必上 K8s。
< 1000 万条/月：PG 直接查；≥ 1000 万条必上 ClickHouse。
单 Region 满载 70%+ 或客户有跨区/合规需求 → 上多 Region。
单柜功耗 > 30kW 或 PUE 要压到 1.2 以下 → 液冷。

八、运营、财务、安全、销售体系

运营手册

客户全生命周期：注册 → KYC → 充值 → API Key → 首次调用 → 账单 → 续费/升级；
Onboarding 目标：15 分钟内完成首次调用；
客户分层：Free / Pro / Enterprise / Enterprise+ 私有；
SLA：Free best effort、Pro 99.5%、Enterprise 99.9%、私有 99.99%；
事故分级：SEV-1（15 分钟）到 SEV-4（24 小时）；
变更窗口：周二/周四凌晨 2–4 点，禁止周五下午上生产。

GPU FinOps

核心指标：Revenue/GPU/hour、Cost/M tokens、Margin/GPU/hour、Occupancy Rate、CAC/LTV；
四个每日报表：卡效日报、每模型毛利日报、客户价值日报、财务日报；
Prefix Cache 专项：命中率 60% 可提升单卡月收入 1.1 万；
Idle 治理： utilization < 40% 灌 Spot，> 85% 持续 15 分钟补给主池；
决策树：永远不让 GPU 完全 idle，3 折 Spot 也比空转强。

安全体系（护城河）

9 层安全能力：组织合规、IAM/SSO/RBAC/ABAC、API 安全、模型/Agent 安全、数据隔离、GPU/容器隔离、供应链安全、密钥管理、运行时安全、物理网络；
AI 安全差异化：Prompt 注入、越狱、RAG 污染、MCP/Agent 安全，复用 OpenClaw Security Console；
等保三级 Year 1 必做，SOC2 / ISO27001 Year 2；
GPU 显存清理：vLLM PagedAttention 释放 KV + torch.cuda.empty_cache + nvidia-smi -r 强制复位；
合规矩阵：AI 备案、等保三级、SOC2、ISO27001、GDPR/PDPA 出海前。

销售体系

Year 1 ICP：AI 创业 / 游戏 / 教育 / 中小 SaaS，月 GPU 预算 5000–10 万；
Year 1 主打：AI 创业公司 + 游戏公司；
定价策略：大模型对标官方 -20%、小模型 -40%、Spot 3 折、Batch 5 折；
POC：月消费预估 > 3 万触发，送 500 万 tokens 或 100 卡时；
内容营销三件套：技术博客 + 案例研究 + 免费额度。

九、竞品分析与差异化

直接竞品

竞品	定位	我方差异化
硅基流动	国内独立 MaaS 龙头	企业服务 + 安全合规 + 私有部署
火山引擎/阿里云百炼	大厂 MaaS	中立第三方 + 价格 -30%
RunPod	消费卡 GPU 云	中文模型 + 企业合规
Together AI	海外 MaaS 龙头	亚洲市场 + 中文生态
Fireworks	推理速度极致	学其优化，走全模型策略

我方护城河矩阵

强：AI 安全、推理工程、服务、中立性、中文 + 中国合规；
中：模型生态（Qwen/DeepSeek/GLM 全生态）；
弱：硬件规模、品牌、客户基础（初期）。

十、数据体系与 Benchmark 资产

数据分层

Raw Logs → Data Lake（S3 + Parquet）→ Data Warehouse（ClickHouse）→ Data Mart → BI Dashboard。

核心表

fact_gpu_metrics：每分钟 GPU 硬件指标；
fact_inference_metrics：每次请求明细（模型、引擎、token、延迟、收入、成本、毛利）；
dim_users/models/pricing：维度表。

Benchmark 数据资产

目标：建立国内最完整的 LLM 推理性能数据库；
测试矩阵：5 卡型 × 15 模型 × 5 引擎 × 5 量化 × 4 并发 × 6 长度 = 45,000 组合，实际采样 1000+；
8 周产出：all_results.csv、top_models.md、engines_comparison.md、quantization_analysis.md、stability_report.md、wanka_decision.md；
最终 wanka_decision.md 是融资、招人、买卡的核心依据。

十一、组织架构与团队演进

阶段	卡数	团队规模	关键岗位
启动	40	8 人	CTO、AI Engineer、SRE、Backend×2、Frontend、Sales、CSM/Finance
扩张	100–500	20–40 人	VP Eng、VP Sales、VP CS、Marketing/DevRel、CFO
规模化	1000	60–100 人	VP Infrastructure、VP Data、Security、海外负责人
万卡	10000	200–500 人	分事业部（AI Cloud、私有部署、SEA/Global）

薪资参考（北上广深）：

AI/Inference Engineer：60–150 万/年；
SRE：50–120 万/年；
Security：60–150 万/年；
CTO：100–150 万 + 期权池 5–10%。

期权池： Year 1 预留 10–15%，关键岗位 0.5–2%。

十二、融资与退出

融资节奏

轮次	时间	金额	估值	里程碑
Seed	现在	5000 万–1 亿	3–5 亿	40 卡数据 + 月流水 20 万+
A 轮	M6	2–3 亿	15–20 亿	首批 2000 卡上线
B 轮	M12	8–10 亿	50–80 亿	扩 5000 卡
C 轮	M24	15–25 亿	—	万卡满载 + 出海