GPU Compute Plans
08 GPU财务运营

08 · GPU FinOps · 决定长期利润的核心

08 · GPU FinOps · 决定长期利润的核心

GPU 云真正赚钱的核心不是"多买卡",是"每张卡每秒钟都在赚钱"。 这一层决定:同样 40 卡,一家赚 20 万,另一家赚 50 万。

一、GPU 利润公式(自上而下)

Profit
  =  Revenue
  -  Electricity
  -  Bandwidth
  -  GPU Depreciation
  -  Idle Loss
  -  Engineering Cost
  -  Support Cost
  -  Compliance Cost

每一项都有可优化的空间。FinOps 的工作就是逐项抠

各项细拆

关键指标优化杠杆
RevenueToken 单价 × 有效吞吐 × 出租率定价、Prefix Cache、批量折扣
ElectricitykWh × 电价 × PUE迁低电价 Region、液冷、峰谷调度
Bandwidth出向 GB × 单价CDN 缓存、就近部署
GPU Depreciation采购价 / 折旧年限卡型选型、二手回收
Idle Loss(1 - 出租率) × 满载成本抢占实例、跨 tenant 灌注
Engineering团队薪资 × 分摊自动化、SRE 人效
Support客服 + SA 时间文档、自助服务、社区
Compliance审计 + 认证 + 法务一次做全,跨客户复用

二、核心 GPU 指标体系(三层)

2.1 底层:硬件级(每秒采集,DCGM)

GPU Occupancy       占用率(SM 是否被调度)
GPU Utilization     利用率(0-100%)
GPU Memory Used     显存占用
Memory Bandwidth    显存带宽利用率
Power Draw          功耗(W)
Temperature         温度(°C)
NVLink Throughput   NVLink 带宽
PCIe Throughput     PCIe 带宽
ECC Errors          纠错错误数
Preemption Count    抢占次数

2.2 中层:推理引擎级(vLLM Prometheus /metrics)

Token/s (output)        单卡产出吞吐
Prefill Token/s         预填吞吐
Decode Token/s          解码吞吐
TTFT (P50/P95/P99)      首 token 延迟
TPOT (P50/P95/P99)      后续 token 延迟
KV Cache Hit Rate       前缀命中率(**利润关键**)
KV Cache Usage          KV 占用率
Batch Size (avg/max)    批大小
Queue Time              排队时间
Num Running Requests    并发数
Num Waiting Requests    等待数
Cold Start Time         冷启动时长
Preemption Rate         请求被抢占率

2.3 上层:商业级(PG + BI)

Revenue/GPU/hour        单卡时收入(最核心!)
Cost/M tokens           每百万 token 成本
Margin/GPU/hour         单卡时毛利
Occupancy Rate          出租率
Average QPS/model       每模型 QPS
Client ARPU             人均月消费
Churn Rate              客户流失率
Retention Curve         留存曲线
CAC / LTV               获客成本 / 生命周期价值

三、四个必看的"每日报表"

3.1 卡效日报(给运营)

今日 GPU 效率报告 · 2026-XX-XX
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

整体:
  总卡数:40
  平均利用率:63%   [目标 75%]  ⚠ 低于目标
  平均温度:72°C    [告警线 85°C]  ✓
  平均功耗:380W/卡 [额定 575W]

按机器:
  M1  utilization  81%  🟢 良好
  M2  utilization  74%  🟢
  M3  utilization  52%  🟡  bge/glm 副本空转
  M4  utilization  100% 🟢  测试满载
  M5  utilization   8%  🔴  弹性池未启用

按模型:
  Qwen3-72B         Rev/hour  ¥ 220   Cost/hour  ¥ 45   Margin 80%
  Qwen2.5-14B       Rev/hour  ¥ 340   Cost/hour  ¥ 60   Margin 82%
  BGE-M3            Rev/hour  ¥  8    Cost/hour  ¥ 8    Margin  0%  ⚠

问题:
  1. BGE-M3 亏本运行(免费额度用户过多),建议限流或涨价
  2. GLM-4-9B 无 QPS,下线换成 Qwen2.5-Coder-32B
  3. M5 空转 92%,建议接入 Spot API

建议动作:
  □ M3 GPU 5-6 换模型
  □ M5 立即启用 Qwen2.5-14B Spot 副本
  □ BGE-M3 免费额度从 100 万调到 20 万 tokens

3.2 每模型毛利日报(给产品)

Model             Rev(K¥)   Cost(K¥)   Margin   Tokens(M)   Occupancy
Qwen3-72B          5.3       0.9        83%      2.1         92%
Qwen2.5-14B        12.6      2.1        83%      12.4        88%
Qwen2.5-Coder      4.2       0.8        81%      3.1         76%
Qwen2-VL-7B        3.8       0.4        89%      1.2         65%
GLM-4-9B           0.2       0.1        50%      0.05        6%    ← 建议下线
BGE-M3             1.1       0.4        64%      120M req    45%

3.3 客户价值日报(给销售 / 客户成功)

Top 10 客户(按今日消费):
  1. acme-corp     ¥ 8,200   14B 大量调用(合约客户,续约中)
  2. dev-alice     ¥ 3,100   spot 抢占用户(可推荐升级保障级)
  3. beta-startup  ¥ 2,400   免费额度用完(转付费建议)
  ...

流失预警(连续 3 天消费下降 > 50%):
  - customer-xxx   连续 5 天无调用   ← 主动联系
  - customer-yyy   API error rate 上升   ← SA 介入

新客户(今日首次调用):
  - 5 个新注册,其中 2 个已充值
  - 平均首次充值 200 元

3.4 财务日报(给管理层 / CFO)

2026-XX-XX 财务简报

营收(今日):
  API 调用     ¥ 28,300
  微调服务     ¥ 4,800
  合计         ¥ 33,100

成本(今日):
  电费         ¥ 3,200
  带宽         ¥   400
  折旧         ¥ 4,000
  团队分摊     ¥ 3,300
  合计         ¥ 10,900

毛利         ¥ 22,200  (毛利率 67%)

MTD(当月累计):
  Revenue     ¥ 512,000
  Cost        ¥ 232,000
  Margin      ¥ 280,000  (55%)

预测(月末):
  Revenue     ¥ 890,000
  Cost        ¥ 380,000
  Margin      ¥ 510,000  (57%)

Cash Runway:18 个月(当前烧率下)

四、Prefix Cache 利润专项(最重要的单一杠杆)

为什么专门讲这个:vLLM 的 prefix caching 是唯一"零成本增加利润 30%+"的杠杆

4.1 机制

客户 A 的 system prompt = "你是一个客服助手,公司是..."(3000 tokens)
客户 A 每次请求都发这段 prompt

首次:
  引擎完整计算 3000 tokens 的 KV 状态 → 缓存

后续:
  命中缓存 → 直接跳过 prefill → 只算 user query
  客户感受:TTFT 从 800ms 降到 100ms
  平台感受:这 3000 tokens 的 GPU 时间省了

4.2 关键动作

动作 1:所有 vLLM 实例强制开 --enable-prefix-caching

动作 2:sticky routing(同 client_id 路由到同一副本)

  • 提升 prefix cache 命中率 3-10 倍
  • 网关按 hash(user_id) 一致性哈希

动作 3:System Prompt 全局共享

  • 常见 system prompt 提取为"全局 prefix"
  • 所有客户共享(无隐私风险的部分)

动作 4:定价激励客户复用

  • API 里显示 cache_hit_rate
  • 命中的 token 打 3 折(vLLM 已支持标记)
  • 客户会主动优化 prompt 结构

4.3 收益模型

命中率有效吞吐提升单卡月收入提升
0%基准0
20%+14%+100/卡
40%+30%+230/卡
60%+55%+430/卡
80%+90%+700/卡

40 卡命中率从 20% 提升到 60%,月收入 +1.3 万。免费的钱。

五、Idle Loss 治理

问题:40 卡 60% 出租率 = 16 卡空转 = 每月 3.8 万白扔。

五个空转来源 + 应对

来源占比应对
时区波动(夜间流量低)30%Spot API 拉批量客户填空
客户请求集中在几个模型25%冷模型下线,动态部署热模型
大模型 warmup 慢10%服务常驻,不频繁重启
副本超配15%按实际 QPS 自动缩容
故障 / 维护20%灰度更新、健康检查

自动灌注决策

每 5 分钟检查:
  if 集群平均 utilization < 40%:
    → 从最闲机器抽 GPU 加入 Spot 池
  if 集群 utilization > 85% 持续 15 分钟:
    → 从 Spot 池抽 GPU 补给主池

阈值防抖:至少间隔 5 分钟,每小时最多操作 4 次

六、每卡每小时的边际决策

核心问题:卡这一小时应该跑什么?

决策树

if 有 P0 长租客户请求:
  → 跑 P0(最贵)
elif 有 P1 API 请求且并发未满:
  → 跑 P1
elif 有 P2 spot 请求且 GPU 空闲:
  → 跑 P2(3-4 折)
elif 有 P3 批量任务队列:
  → 跑 P3(5 折)
elif 有内部测试需求:
  → 跑 M4 benchmark
else:
  → GPU 降频待机(省电)

关键点永远不让 GPU 完全 idle。哪怕跑 3 折的 Spot 也比空转强(电费一样,还有营收)。

七、跨 Region 迁移决策

场景:欧洲流量白天低(时差 6-8 小时)。

决策逻辑

if 新加坡 Region utilization < 40%:
  可选:
  a. 把 DeepSeek 模型从新加坡挪到北京(如可行)
  b. 新加坡 Spot API 大幅降价拉欧洲流量
  c. 把新加坡卡的一部分租给欧洲夜间训练客户

if 北京 Region 白天 utilization > 90%:
  → 部分请求路由到新加坡(欧美时区闲卡)
  → 客户接受多 100ms 延迟

八、每周 FinOps 复盘会议

议程模板

  1. 上周关键指标(毛利率、出租率、单客 ARPU)
  2. Top 3 亏损点(哪个模型 / 哪台机器 / 哪类客户)
  3. Top 3 增长点(哪些做对了)
  4. 本周优化实验(1 个大 + 3 个小)
  5. 下周决策(部署 / 定价 / 客户)

关键决策优先级

  • P0:任何机器出租率 < 30% 持续 3 天,立即下线或换模型
  • P1:任何模型毛利率 < 30%,一周内调价或下线
  • P2:Prefix cache 命中率 < 40%,一周内改 routing 策略

九、关键判断

FinOps 不是财务报表,是"运营 GPU 池的操作规程"。

40 卡阶段能靠人肉盯盘,需要每天 30 分钟 review 报表。 1000 卡阶段必须自动化:告警 + 建议 + 一键执行。 万卡阶段是自研平台的核心竞争力,不外包。

优先做

  1. 每日卡效日报(一周内做出)
  2. Prefix cache 命中率优化(两周内看到收益)
  3. Idle 卡自动灌 Spot(一个月内自动化)

On this page