08 GPU财务运营
08 · GPU FinOps · 决定长期利润的核心
08 · GPU FinOps · 决定长期利润的核心
GPU 云真正赚钱的核心不是"多买卡",是"每张卡每秒钟都在赚钱"。 这一层决定:同样 40 卡,一家赚 20 万,另一家赚 50 万。
一、GPU 利润公式(自上而下)
Profit
= Revenue
- Electricity
- Bandwidth
- GPU Depreciation
- Idle Loss
- Engineering Cost
- Support Cost
- Compliance Cost每一项都有可优化的空间。FinOps 的工作就是逐项抠。
各项细拆
| 项 | 关键指标 | 优化杠杆 |
|---|---|---|
| Revenue | Token 单价 × 有效吞吐 × 出租率 | 定价、Prefix Cache、批量折扣 |
| Electricity | kWh × 电价 × PUE | 迁低电价 Region、液冷、峰谷调度 |
| Bandwidth | 出向 GB × 单价 | CDN 缓存、就近部署 |
| GPU Depreciation | 采购价 / 折旧年限 | 卡型选型、二手回收 |
| Idle Loss | (1 - 出租率) × 满载成本 | 抢占实例、跨 tenant 灌注 |
| Engineering | 团队薪资 × 分摊 | 自动化、SRE 人效 |
| Support | 客服 + SA 时间 | 文档、自助服务、社区 |
| Compliance | 审计 + 认证 + 法务 | 一次做全,跨客户复用 |
二、核心 GPU 指标体系(三层)
2.1 底层:硬件级(每秒采集,DCGM)
GPU Occupancy 占用率(SM 是否被调度)
GPU Utilization 利用率(0-100%)
GPU Memory Used 显存占用
Memory Bandwidth 显存带宽利用率
Power Draw 功耗(W)
Temperature 温度(°C)
NVLink Throughput NVLink 带宽
PCIe Throughput PCIe 带宽
ECC Errors 纠错错误数
Preemption Count 抢占次数2.2 中层:推理引擎级(vLLM Prometheus /metrics)
Token/s (output) 单卡产出吞吐
Prefill Token/s 预填吞吐
Decode Token/s 解码吞吐
TTFT (P50/P95/P99) 首 token 延迟
TPOT (P50/P95/P99) 后续 token 延迟
KV Cache Hit Rate 前缀命中率(**利润关键**)
KV Cache Usage KV 占用率
Batch Size (avg/max) 批大小
Queue Time 排队时间
Num Running Requests 并发数
Num Waiting Requests 等待数
Cold Start Time 冷启动时长
Preemption Rate 请求被抢占率2.3 上层:商业级(PG + BI)
Revenue/GPU/hour 单卡时收入(最核心!)
Cost/M tokens 每百万 token 成本
Margin/GPU/hour 单卡时毛利
Occupancy Rate 出租率
Average QPS/model 每模型 QPS
Client ARPU 人均月消费
Churn Rate 客户流失率
Retention Curve 留存曲线
CAC / LTV 获客成本 / 生命周期价值三、四个必看的"每日报表"
3.1 卡效日报(给运营)
今日 GPU 效率报告 · 2026-XX-XX
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
整体:
总卡数:40
平均利用率:63% [目标 75%] ⚠ 低于目标
平均温度:72°C [告警线 85°C] ✓
平均功耗:380W/卡 [额定 575W]
按机器:
M1 utilization 81% 🟢 良好
M2 utilization 74% 🟢
M3 utilization 52% 🟡 bge/glm 副本空转
M4 utilization 100% 🟢 测试满载
M5 utilization 8% 🔴 弹性池未启用
按模型:
Qwen3-72B Rev/hour ¥ 220 Cost/hour ¥ 45 Margin 80%
Qwen2.5-14B Rev/hour ¥ 340 Cost/hour ¥ 60 Margin 82%
BGE-M3 Rev/hour ¥ 8 Cost/hour ¥ 8 Margin 0% ⚠
问题:
1. BGE-M3 亏本运行(免费额度用户过多),建议限流或涨价
2. GLM-4-9B 无 QPS,下线换成 Qwen2.5-Coder-32B
3. M5 空转 92%,建议接入 Spot API
建议动作:
□ M3 GPU 5-6 换模型
□ M5 立即启用 Qwen2.5-14B Spot 副本
□ BGE-M3 免费额度从 100 万调到 20 万 tokens3.2 每模型毛利日报(给产品)
Model Rev(K¥) Cost(K¥) Margin Tokens(M) Occupancy
Qwen3-72B 5.3 0.9 83% 2.1 92%
Qwen2.5-14B 12.6 2.1 83% 12.4 88%
Qwen2.5-Coder 4.2 0.8 81% 3.1 76%
Qwen2-VL-7B 3.8 0.4 89% 1.2 65%
GLM-4-9B 0.2 0.1 50% 0.05 6% ← 建议下线
BGE-M3 1.1 0.4 64% 120M req 45%3.3 客户价值日报(给销售 / 客户成功)
Top 10 客户(按今日消费):
1. acme-corp ¥ 8,200 14B 大量调用(合约客户,续约中)
2. dev-alice ¥ 3,100 spot 抢占用户(可推荐升级保障级)
3. beta-startup ¥ 2,400 免费额度用完(转付费建议)
...
流失预警(连续 3 天消费下降 > 50%):
- customer-xxx 连续 5 天无调用 ← 主动联系
- customer-yyy API error rate 上升 ← SA 介入
新客户(今日首次调用):
- 5 个新注册,其中 2 个已充值
- 平均首次充值 200 元3.4 财务日报(给管理层 / CFO)
2026-XX-XX 财务简报
营收(今日):
API 调用 ¥ 28,300
微调服务 ¥ 4,800
合计 ¥ 33,100
成本(今日):
电费 ¥ 3,200
带宽 ¥ 400
折旧 ¥ 4,000
团队分摊 ¥ 3,300
合计 ¥ 10,900
毛利 ¥ 22,200 (毛利率 67%)
MTD(当月累计):
Revenue ¥ 512,000
Cost ¥ 232,000
Margin ¥ 280,000 (55%)
预测(月末):
Revenue ¥ 890,000
Cost ¥ 380,000
Margin ¥ 510,000 (57%)
Cash Runway:18 个月(当前烧率下)四、Prefix Cache 利润专项(最重要的单一杠杆)
为什么专门讲这个:vLLM 的 prefix caching 是唯一"零成本增加利润 30%+"的杠杆。
4.1 机制
客户 A 的 system prompt = "你是一个客服助手,公司是..."(3000 tokens)
客户 A 每次请求都发这段 prompt
首次:
引擎完整计算 3000 tokens 的 KV 状态 → 缓存
后续:
命中缓存 → 直接跳过 prefill → 只算 user query
客户感受:TTFT 从 800ms 降到 100ms
平台感受:这 3000 tokens 的 GPU 时间省了4.2 关键动作
动作 1:所有 vLLM 实例强制开 --enable-prefix-caching
动作 2:sticky routing(同 client_id 路由到同一副本)
- 提升 prefix cache 命中率 3-10 倍
- 网关按
hash(user_id)一致性哈希
动作 3:System Prompt 全局共享
- 常见 system prompt 提取为"全局 prefix"
- 所有客户共享(无隐私风险的部分)
动作 4:定价激励客户复用
- API 里显示 cache_hit_rate
- 命中的 token 打 3 折(vLLM 已支持标记)
- 客户会主动优化 prompt 结构
4.3 收益模型
| 命中率 | 有效吞吐提升 | 单卡月收入提升 |
|---|---|---|
| 0% | 基准 | 0 |
| 20% | +14% | +100/卡 |
| 40% | +30% | +230/卡 |
| 60% | +55% | +430/卡 |
| 80% | +90% | +700/卡 |
40 卡命中率从 20% 提升到 60%,月收入 +1.3 万。免费的钱。
五、Idle Loss 治理
问题:40 卡 60% 出租率 = 16 卡空转 = 每月 3.8 万白扔。
五个空转来源 + 应对
| 来源 | 占比 | 应对 |
|---|---|---|
| 时区波动(夜间流量低) | 30% | Spot API 拉批量客户填空 |
| 客户请求集中在几个模型 | 25% | 冷模型下线,动态部署热模型 |
| 大模型 warmup 慢 | 10% | 服务常驻,不频繁重启 |
| 副本超配 | 15% | 按实际 QPS 自动缩容 |
| 故障 / 维护 | 20% | 灰度更新、健康检查 |
自动灌注决策
每 5 分钟检查:
if 集群平均 utilization < 40%:
→ 从最闲机器抽 GPU 加入 Spot 池
if 集群 utilization > 85% 持续 15 分钟:
→ 从 Spot 池抽 GPU 补给主池
阈值防抖:至少间隔 5 分钟,每小时最多操作 4 次六、每卡每小时的边际决策
核心问题:卡这一小时应该跑什么?
决策树:
if 有 P0 长租客户请求:
→ 跑 P0(最贵)
elif 有 P1 API 请求且并发未满:
→ 跑 P1
elif 有 P2 spot 请求且 GPU 空闲:
→ 跑 P2(3-4 折)
elif 有 P3 批量任务队列:
→ 跑 P3(5 折)
elif 有内部测试需求:
→ 跑 M4 benchmark
else:
→ GPU 降频待机(省电)关键点:永远不让 GPU 完全 idle。哪怕跑 3 折的 Spot 也比空转强(电费一样,还有营收)。
七、跨 Region 迁移决策
场景:欧洲流量白天低(时差 6-8 小时)。
决策逻辑:
if 新加坡 Region utilization < 40%:
可选:
a. 把 DeepSeek 模型从新加坡挪到北京(如可行)
b. 新加坡 Spot API 大幅降价拉欧洲流量
c. 把新加坡卡的一部分租给欧洲夜间训练客户
if 北京 Region 白天 utilization > 90%:
→ 部分请求路由到新加坡(欧美时区闲卡)
→ 客户接受多 100ms 延迟八、每周 FinOps 复盘会议
议程模板:
- 上周关键指标(毛利率、出租率、单客 ARPU)
- Top 3 亏损点(哪个模型 / 哪台机器 / 哪类客户)
- Top 3 增长点(哪些做对了)
- 本周优化实验(1 个大 + 3 个小)
- 下周决策(部署 / 定价 / 客户)
关键决策优先级:
- P0:任何机器出租率 < 30% 持续 3 天,立即下线或换模型
- P1:任何模型毛利率 < 30%,一周内调价或下线
- P2:Prefix cache 命中率 < 40%,一周内改 routing 策略
九、关键判断
FinOps 不是财务报表,是"运营 GPU 池的操作规程"。
40 卡阶段能靠人肉盯盘,需要每天 30 分钟 review 报表。 1000 卡阶段必须自动化:告警 + 建议 + 一键执行。 万卡阶段是自研平台的核心竞争力,不外包。
优先做:
- 每日卡效日报(一周内做出)
- Prefix cache 命中率优化(两周内看到收益)
- Idle 卡自动灌 Spot(一个月内自动化)