08 · GPU FinOps · 决定长期利润的核心

GPU 云真正赚钱的核心不是"多买卡"，是"每张卡每秒钟都在赚钱"。这一层决定：同样 40 卡，一家赚 20 万，另一家赚 50 万。

一、GPU 利润公式（自上而下）

Profit
  =  Revenue
  -  Electricity
  -  Bandwidth
  -  GPU Depreciation
  -  Idle Loss
  -  Engineering Cost
  -  Support Cost
  -  Compliance Cost

每一项都有可优化的空间。FinOps 的工作就是逐项抠。

各项细拆

项	关键指标	优化杠杆
Revenue	Token 单价 × 有效吞吐 × 出租率	定价、Prefix Cache、批量折扣
Electricity	kWh × 电价 × PUE	迁低电价 Region、液冷、峰谷调度
Bandwidth	出向 GB × 单价	CDN 缓存、就近部署
GPU Depreciation	采购价 / 折旧年限	卡型选型、二手回收
Idle Loss	(1 - 出租率) × 满载成本	抢占实例、跨 tenant 灌注
Engineering	团队薪资 × 分摊	自动化、SRE 人效
Support	客服 + SA 时间	文档、自助服务、社区
Compliance	审计 + 认证 + 法务	一次做全，跨客户复用

二、核心 GPU 指标体系（三层）

2.1 底层：硬件级（每秒采集，DCGM）

GPU Occupancy       占用率（SM 是否被调度）
GPU Utilization     利用率（0-100%）
GPU Memory Used     显存占用
Memory Bandwidth    显存带宽利用率
Power Draw          功耗（W）
Temperature         温度（°C）
NVLink Throughput   NVLink 带宽
PCIe Throughput     PCIe 带宽
ECC Errors          纠错错误数
Preemption Count    抢占次数

2.2 中层：推理引擎级（vLLM Prometheus /metrics）

Token/s (output)        单卡产出吞吐
Prefill Token/s         预填吞吐
Decode Token/s          解码吞吐
TTFT (P50/P95/P99)      首 token 延迟
TPOT (P50/P95/P99)      后续 token 延迟
KV Cache Hit Rate       前缀命中率（**利润关键**）
KV Cache Usage          KV 占用率
Batch Size (avg/max)    批大小
Queue Time              排队时间
Num Running Requests    并发数
Num Waiting Requests    等待数
Cold Start Time         冷启动时长
Preemption Rate         请求被抢占率

2.3 上层：商业级（PG + BI）

Revenue/GPU/hour        单卡时收入（最核心！）
Cost/M tokens           每百万 token 成本
Margin/GPU/hour         单卡时毛利
Occupancy Rate          出租率
Average QPS/model       每模型 QPS
Client ARPU             人均月消费
Churn Rate              客户流失率
Retention Curve         留存曲线
CAC / LTV               获客成本 / 生命周期价值

三、四个必看的"每日报表"

3.1 卡效日报（给运营）

今日 GPU 效率报告 · 2026-XX-XX
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

整体：
  总卡数：40
  平均利用率：63%   [目标 75%]  ⚠ 低于目标
  平均温度：72°C    [告警线 85°C]  ✓
  平均功耗：380W/卡 [额定 575W]

按机器：
  M1  utilization  81%  🟢 良好
  M2  utilization  74%  🟢
  M3  utilization  52%  🟡  bge/glm 副本空转
  M4  utilization  100% 🟢  测试满载
  M5  utilization   8%  🔴  弹性池未启用

按模型：
  Qwen3-72B         Rev/hour  ¥ 220   Cost/hour  ¥ 45   Margin 80%
  Qwen2.5-14B       Rev/hour  ¥ 340   Cost/hour  ¥ 60   Margin 82%
  BGE-M3            Rev/hour  ¥  8    Cost/hour  ¥ 8    Margin  0%  ⚠

问题：
  1. BGE-M3 亏本运行（免费额度用户过多），建议限流或涨价
  2. GLM-4-9B 无 QPS，下线换成 Qwen2.5-Coder-32B
  3. M5 空转 92%，建议接入 Spot API

建议动作：
  □ M3 GPU 5-6 换模型
  □ M5 立即启用 Qwen2.5-14B Spot 副本
  □ BGE-M3 免费额度从 100 万调到 20 万 tokens

3.2 每模型毛利日报（给产品）

Model             Rev(K¥)   Cost(K¥)   Margin   Tokens(M)   Occupancy
Qwen3-72B          5.3       0.9        83%      2.1         92%
Qwen2.5-14B        12.6      2.1        83%      12.4        88%
Qwen2.5-Coder      4.2       0.8        81%      3.1         76%
Qwen2-VL-7B        3.8       0.4        89%      1.2         65%
GLM-4-9B           0.2       0.1        50%      0.05        6%    ← 建议下线
BGE-M3             1.1       0.4        64%      120M req    45%

3.3 客户价值日报（给销售 / 客户成功）

Top 10 客户（按今日消费）：
  1. acme-corp     ¥ 8,200   14B 大量调用（合约客户，续约中）
  2. dev-alice     ¥ 3,100   spot 抢占用户（可推荐升级保障级）
  3. beta-startup  ¥ 2,400   免费额度用完（转付费建议）
  ...

流失预警（连续 3 天消费下降 > 50%）：
  - customer-xxx   连续 5 天无调用   ← 主动联系
  - customer-yyy   API error rate 上升   ← SA 介入

新客户（今日首次调用）：
  - 5 个新注册，其中 2 个已充值
  - 平均首次充值 200 元

3.4 财务日报（给管理层 / CFO）

2026-XX-XX 财务简报

营收（今日）：
  API 调用     ¥ 28,300
  微调服务     ¥ 4,800
  合计         ¥ 33,100

成本（今日）：
  电费         ¥ 3,200
  带宽         ¥   400
  折旧         ¥ 4,000
  团队分摊     ¥ 3,300
  合计         ¥ 10,900

毛利         ¥ 22,200  (毛利率 67%)

MTD（当月累计）：
  Revenue     ¥ 512,000
  Cost        ¥ 232,000
  Margin      ¥ 280,000  (55%)

预测（月末）：
  Revenue     ¥ 890,000
  Cost        ¥ 380,000
  Margin      ¥ 510,000  (57%)

Cash Runway：18 个月（当前烧率下）

四、Prefix Cache 利润专项（最重要的单一杠杆）

为什么专门讲这个：vLLM 的 prefix caching 是唯一"零成本增加利润 30%+"的杠杆。

4.1 机制

客户 A 的 system prompt = "你是一个客服助手，公司是..."（3000 tokens）
客户 A 每次请求都发这段 prompt

首次：
  引擎完整计算 3000 tokens 的 KV 状态 → 缓存

后续：
  命中缓存 → 直接跳过 prefill → 只算 user query
  客户感受：TTFT 从 800ms 降到 100ms
  平台感受：这 3000 tokens 的 GPU 时间省了

4.2 关键动作

动作 1：所有 vLLM 实例强制开 --enable-prefix-caching

动作 2：sticky routing（同 client_id 路由到同一副本）

提升 prefix cache 命中率 3-10 倍
网关按 hash(user_id) 一致性哈希

动作 3：System Prompt 全局共享

常见 system prompt 提取为"全局 prefix"
所有客户共享（无隐私风险的部分）

动作 4：定价激励客户复用

API 里显示 cache_hit_rate
命中的 token 打 3 折（vLLM 已支持标记）
客户会主动优化 prompt 结构

4.3 收益模型

命中率	有效吞吐提升	单卡月收入提升
0%	基准	0
20%	+14%	+100/卡
40%	+30%	+230/卡
60%	+55%	+430/卡
80%	+90%	+700/卡

40 卡命中率从 20% 提升到 60%，月收入 +1.3 万。免费的钱。

五、Idle Loss 治理

问题：40 卡 60% 出租率 = 16 卡空转 = 每月 3.8 万白扔。

五个空转来源 + 应对

来源	占比	应对
时区波动（夜间流量低）	30%	Spot API 拉批量客户填空
客户请求集中在几个模型	25%	冷模型下线，动态部署热模型
大模型 warmup 慢	10%	服务常驻，不频繁重启
副本超配	15%	按实际 QPS 自动缩容
故障 / 维护	20%	灰度更新、健康检查

自动灌注决策

每 5 分钟检查：
  if 集群平均 utilization < 40%:
    → 从最闲机器抽 GPU 加入 Spot 池
  if 集群 utilization > 85% 持续 15 分钟:
    → 从 Spot 池抽 GPU 补给主池

阈值防抖：至少间隔 5 分钟，每小时最多操作 4 次

六、每卡每小时的边际决策

核心问题：卡这一小时应该跑什么？

决策树：

if 有 P0 长租客户请求:
  → 跑 P0（最贵）
elif 有 P1 API 请求且并发未满:
  → 跑 P1
elif 有 P2 spot 请求且 GPU 空闲:
  → 跑 P2（3-4 折）
elif 有 P3 批量任务队列:
  → 跑 P3（5 折）
elif 有内部测试需求:
  → 跑 M4 benchmark
else:
  → GPU 降频待机（省电）

关键点：永远不让 GPU 完全 idle。哪怕跑 3 折的 Spot 也比空转强（电费一样，还有营收）。

七、跨 Region 迁移决策

场景：欧洲流量白天低（时差 6-8 小时）。

决策逻辑：

if 新加坡 Region utilization < 40%:
  可选：
  a. 把 DeepSeek 模型从新加坡挪到北京（如可行）
  b. 新加坡 Spot API 大幅降价拉欧洲流量
  c. 把新加坡卡的一部分租给欧洲夜间训练客户

if 北京 Region 白天 utilization > 90%:
  → 部分请求路由到新加坡（欧美时区闲卡）
  → 客户接受多 100ms 延迟

八、每周 FinOps 复盘会议

议程模板：

上周关键指标（毛利率、出租率、单客 ARPU）
Top 3 亏损点（哪个模型 / 哪台机器 / 哪类客户）
Top 3 增长点（哪些做对了）
本周优化实验（1 个大 + 3 个小）
下周决策（部署 / 定价 / 客户）

关键决策优先级：

P0：任何机器出租率 < 30% 持续 3 天，立即下线或换模型
P1：任何模型毛利率 < 30%，一周内调价或下线
P2：Prefix cache 命中率 < 40%，一周内改 routing 策略

九、关键判断

FinOps 不是财务报表，是"运营 GPU 池的操作规程"。

40 卡阶段能靠人肉盯盘，需要每天 30 分钟 review 报表。 1000 卡阶段必须自动化：告警 + 建议 + 一键执行。万卡阶段是自研平台的核心竞争力，不外包。

优先做：

每日卡效日报（一周内做出）
Prefix cache 命中率优化（两周内看到收益）
Idle 卡自动灌 Spot（一个月内自动化）

08 · GPU FinOps · 决定长期利润的核心

On this page