GPU Compute Plans
07 运营手册

07 · Operations · 从"部署好"到"运营好"

07 · Operations · 从"部署好"到"运营好"

部署 GPU 只是开始,运营 GPU 才是差别。这份文档定义客户从注册到续费全生命周期。

一、客户全生命周期

官网访问

注册(邮箱链接登录)

实名认证(企业客户 KYC)

充值 / 免费额度激活

生成访问密钥

首次 API 调用

使用监控 + 告警

账单结算

异常处理(客服)

续费 / 充值

套餐升级(Free → Pro → Enterprise)

二、Onboarding(新客户 0-7 天)

2.1 注册流程

目标:15 分钟内完成从注册到首次调用。

  • Step 1:邮箱注册 + 一次性登录链接验证
  • Step 2:进入 Dashboard,看到 100 万免费 token 额度
  • Step 3:一键生成访问密钥
  • Step 4:文档页示例可直接复制
  • Step 5:首次调用成功 → 弹窗庆祝 + 引导下一步

摩擦点检查

  • 登录链接是否 10 秒内送达
  • 密钥生成是否 1 秒完成
  • 文档示例是否可运行(每周自动测)

2.2 KYC(企业客户)

触发

  • 月消费 > 10,000 元 → 强制 KYC
  • 单笔充值 > 5,000 元 → 强制 KYC
  • 免费额度用完想升级付费 → 强制 KYC

流程

  • 上传营业执照 / 身份证正反面
  • 法人 / 联系人信息
  • 银行账户(用于开发票 / 大额充值)
  • 后台审核(1-2 工作日)

2.3 引导 Playbook

Day 0:注册欢迎邮件 + 15 分钟入门教程 Day 1:首次调用后自动发"下一步指南"(多轮对话 / 函数调用 / 视觉) Day 3:如果没有第二次调用 → SA 主动联系问需求 Day 7:免费额度用了 30%+ 推付费;没用 → 发使用案例激活

三、Customer Success(客户成功)

3.1 分层运营

Free 用户(月消费 0):

  • 邮件自动化 + 社区支持
  • 无 SA
  • 客户成功成本接近 0

Pro 用户(月消费 100-5,000 元):

  • 邮件 + 工单支持
  • 群运营(飞书 / Discord)
  • 无 SA,可预约技术咨询

Enterprise 用户(月消费 > 5,000 元):

  • 专属 SA(Solution Architect)
  • 1v1 微信 / 飞书
  • 季度业务复盘
  • 定制化 SLA

3.2 客户健康度评分

每客户打健康分(0-100):

  • 消费趋势(30 分):环比增长 +10 / 稳定 +5 / 下降 -10
  • 技术活跃度(20 分):API 调用次数、错误率
  • 业务集成深度(20 分):使用模型数、上下文长度
  • NPS 反馈(15 分):满意度调查
  • 响应活跃度(15 分):邮件回复率、工单参与

分数 < 40 → 流失预警,SA 24h 内联系。

3.3 QBR(Quarterly Business Review)

面向 Enterprise 客户,每季度一次:

  • 上季使用统计
  • 成本优化建议
  • 新功能介绍
  • 未来路线图对齐
  • 续约意向探底

四、SLA(服务等级协议)

4.1 三档产品线 SLA

档位可用性TTFT P99故障响应补偿
FreeBest effort无承诺
Pro99.5%1500ms30 min按未达标时间退款
Enterprise99.9%800ms15 min2 倍未达标时间退款
Enterprise+ 私有99.99%600ms5 min4 倍 + 事后报告

4.2 SLA 计算方法

每月可用性 = (总分钟数 - 未达标分钟数) / 总分钟数 × 100%

未达标定义

  • 服务返回 5xx 错误
  • TTFT P99 超过承诺值 15 分钟以上
  • 客户请求 100% 被拒(限流除外)

4.3 SLA 报告

  • Dashboard 显示实时可用性(前 30 天)
  • 每月自动出 SLA 报告(PDF)发到客户邮箱
  • 客户能自助拉历史数据

五、Billing(计费与账单)

5.1 计费模型

Token 计费

  • Input tokens × 单价
  • Output tokens × 单价
  • Cache 命中 tokens × 3 折

订阅套餐(可选):

  • Basic:月费 X + 包含 Y M tokens + 超出 -20%
  • Pro:月费 Z + 包含 W M tokens + 超出 -30%

微调服务:GPU 时长 × 单价

私有部署:月度包机 × N + 起始费

5.2 账单周期

  • 实时:预扣扣款
  • 日结:每天 UTC 0 点出日报
  • 月结:每月 1 号出上月账单 + 发票
  • 企业客户:可自定义账期(30/60/90 天)

5.3 发票开具

  • 中国:接诺诺电子发票 API
  • 增值税专用发票(企业)需 KYC 完成
  • 每月自动开票(可关闭)

5.4 退款 / 争议

  • 30 天内错误扣款可申诉
  • 平台故障导致的费用自动退款
  • 争议超过 500 元 → 主管审批

六、Support(客服体系)

6.1 分级支持

Level 1(一线):

  • 通用问题、账单、注册
  • 响应目标:工作时间 30 分钟
  • 处理率:80% 场景

Level 2(技术):

  • API 报错、模型选型、性能调优
  • 响应目标:4 小时
  • 处理率:15% 场景

Level 3(专家):

  • 深度技术、定制化、事故
  • 响应:24 小时
  • 处理率:5% 场景

6.2 支持渠道

  • 文档:docs.your-domain.com(覆盖 80% 自助)
  • 社区:Discord / 飞书用户群(客户互助)
  • 工单:门户内表单 + 邮件
  • 飞书 / 微信:Enterprise 客户专享

6.3 支持工单流

客户提交 → 自动分类(AI 分类器) → 分派 L1 → 处理 or 升级 L2/L3
→ 解决 → 客户确认 → 关闭 + NPS 评分

七、Incident Response(事故响应)

7.1 事故分级

  • SEV-1:全线中断、数据泄露 → 15 分钟响应
  • SEV-2:单服务中断、大客户中断 → 30 分钟响应
  • SEV-3:性能下降、局部影响 → 2 小时响应
  • SEV-4:单用户投诉 → 24 小时响应

7.2 事故处置流程

  1. 发现(监控告警或客户报告)
  2. 确认(on-call 工程师 5 分钟内确认)
  3. 分级(决定 SEV)
  4. 通知(内部 + 客户 status page)
  5. 处置(回滚 / 修复)
  6. 恢复(服务恢复 + 通知)
  7. Postmortem(5 个工作日内完成事后分析)
  8. 改进(Action items + follow-up)

7.3 Status Page

  • 公开状态页 status.your-domain.com
  • 实时展示各服务健康度
  • 事故时自动更新
  • 客户可订阅

八、Monitoring(监控体系)

详见 09-Security 和 08-FinOps,此处只列 Ops 关注的部分:

  • 服务可用性(每服务 200 vs 5xx 比例)
  • 平均响应延迟(trend)
  • 错误率
  • 客服工单积压
  • SLA 达成率

九、Change Management(变更管理)

9.1 变更分级

  • 紧急变更:立即执行,事后 review
  • 标准变更:预审批的例行操作
  • 普通变更:需主管审批
  • 重大变更:需 CAB(变更委员会)评审

9.2 变更窗口

  • 禁改窗口:法定节假日前 3 天 + 客户重要活动
  • 推荐窗口:周二 / 周四 凌晨 2-4 点
  • 禁止周五下午上生产

9.3 灰度发布

  • 每次上线先 5% → 20% → 50% → 100%
  • 每档观察 15 分钟指标
  • 异常立即回滚

十、Organization Chart(40 卡阶段团队)

CEO / 创始人
├── CTO
│   ├── 平台工程(Backend)× 2
│   ├── AI 工程(推理调优)× 1
│   ├── SRE(DevOps)× 1
│   └── 前端 × 1
├── 商务 / 销售 × 1
├── 客户成功 / 客服 × 1
└── 财务 / 运营 × 1(可兼)

8 人起步团队,覆盖:技术 5 + 商务 1 + 客户 1 + 财务 1

十一、关键判断

运营 = "让客户开心付钱"

三个必做:

  1. Onboarding:新客户 15 分钟能用起来(决定拉新转化率)
  2. Customer Success:主动联系流失预警客户(决定留存)
  3. Incident Response:事故 15 分钟响应(决定客户信任)

别做的

  • 别自研工单系统(用飞书 / Slack / Zendesk)
  • 别一开始就分 L1/L2/L3(40 卡阶段 1 人多岗)
  • 别过度自动化(客户希望有人味)

最大 ROI:一份好的公开文档 + 一个活跃的用户社区,能减 60% 客服工作量。

On this page