GPU Compute Plans
16 风险管理

16 · 危机应对剧本

16 · 危机应对剧本

当 P0 事件发生时,没时间思考。剧本要提前背好。

一、数据泄露事件

T+0 · 发现

  • 发现人:监控告警 / 客户报告 / 内部发现
  • 第一动作:断网(不是关机,是物理断网线/禁用网卡)
  • 通知:CEO + CTO + CISO + Legal(4 人,飞书紧急群)

T+1h · 评估

  • CISO 评估泄露范围(哪些客户 / 什么数据 / 多少条)
  • Legal 评估法律义务(GDPR 72h / 网信办 24h)
  • CEO 决定是否需要报警

T+24h · 通知

  • 受影响客户逐一通知(邮件 + 电话)
  • 公开声明(status page + 微博/微信公众号)
  • 监管机构报备

T+72h · 处置

  • 漏洞修复 + 渗透测试
  • 全量密码重置
  • 审计日志保全(3 年)

T+7d · 复盘

  • Postmortem 报告
  • 改进措施 + 责任追究
  • 客户赔偿方案

关键原则

  • 不隐瞒:隐瞒被发现的后果比泄露本身严重 10 倍
  • 不甩锅:平台承担全部责任,事后追偿
  • 留证据:所有操作有 audit log

二、全线服务中断

T+0 · 发现

  • 监控告警 / 客户大量报错
  • on-call SRE 5 分钟内确认

T+5min · 分级

  • SEV-1 → 全员响应
  • 通知 CEO + CTO + 客户成功

T+15min · 通知客户

  • Status page 更新
  • 飞书群 + 邮件通知所有客户
  • 客服话术统一

T+30min · 诊断

  • SRE 定位故障范围(单机 / 全集群 / 网络 / 上游)
  • 尝试回滚最近变更

T+1h · 恢复

  • 优先恢复核心模型(Qwen2.5-14B / 7B)
  • 非核心模型降级或下线

T+4h · 全恢复

  • 所有服务恢复
  • 监控观察 2h

T+24h · 复盘

  • Postmortem
  • 根因分析
  • 预防措施

三、媒体危机

场景

  • 媒体报道"某 GPU 云泄露客户数据"
  • 社交媒体传播
  • 客户恐慌

应对

  1. T+0:CEO 亲自起草声明
  2. T+1h:官方渠道发布(微博 / 公众号 / status page)
  3. T+2h:CEO 接受采访(如必要)
  4. T+24h:发布详细调查报告
  5. T+7d:发布改进措施 + 第三方审计报告

关键原则

  • 不删帖:越删越火
  • 不甩锅:即使不是我方的错也先担责
  • 不沉默:沉默 = 默认
  • 有温度:道歉要真诚,不要公关腔

四、客户集体诉讼

场景

  • 多个客户因服务中断要求赔偿
  • 律师事务所代理集体诉讼

应对

  1. T+0:Legal 介入,评估诉讼风险
  2. T+24h:主动联系牵头客户,协商和解
  3. T+7d:大多数客户和解(通常赔偿 = 1-3 个月服务费)
  4. T+30d:如无法和解,准备应诉
  5. 合同保护:客户签的合同里 SLA 赔偿上限 = 月消费额

关键原则

  • 合同是最好的防线:SLA 条款 + 不可抗力 + 赔偿上限
  • 和解优于诉讼:诉讼成本 > 赔偿成本
  • 保留所有证据:服务记录 / 通信记录 / 监控数据

五、勒索软件攻击

场景

  • 黑客加密了所有服务器
  • 要求支付赎金(比特币)

应对

  1. T+0:断网隔离所有服务器
  2. T+1h:评估损失范围
  3. T+24h:从备份恢复(不付赎金)
  4. T+72h:核心服务恢复
  5. T+7d:安全加固 + 渗透测试
  6. 报警:网安部门

关键原则

  • 不付赎金:付了也不一定解密,且助长犯罪
  • 备份是生命线:每日全量 + 异地存 + 定期恢复演练
  • 隔离是关键:内网分段,防止横向扩散

六、创始人 / 核心人员突发离职

场景

  • CTO 突然提交辞职
  • 带走核心技术知识

应对

  1. T+0:CEO 亲自谈话,了解真实原因
  2. T+1d:启动交接计划(代码 / 文档 / 权限)
  3. T+7d:权限收回(SSH / Vault / 生产环境)
  4. T+14d:启动紧急招聘
  5. T+30d:新 CTO 到位
  6. T+90d:团队信心恢复

关键原则

  • 期权 vesting 是硬约束:未 vest 的期权自动收回
  • 竞业协议:核心岗位签 1-2 年竞业
  • 知识沉淀:所有核心决策有文档,不依赖单一人

七、现金流告急(Runway < 6 月)

场景

  • 融资失败 + 月烧钱 > 月收入

应对

  1. T+0:CEO + CFO 全面审计支出
  2. T+7d
    • 冻结招聘
    • 砍非核心支出(市场 / 差旅 / 福利)
    • 推迟非紧急采购
  3. T+30d
    • 找过桥贷款 / 股东借款
    • 催收客户预付款
    • 考虑裁员(最后手段)
  4. T+90d
    • 如果仍无法续命:卖卡 / 卖客户资源 / 被并购

关键原则

  • Runway < 6 月就启动:别等 < 3 月才慌
  • 砍成本先砍非核心:技术团队最后动
  • 透明沟通:投资人 / 员工 / 客户都要提前告知

八、关键判断

危机应对的核心不是"处理事件",是"提前演练"

三个必做:

  1. 每季度桌面演练:选一个场景,团队坐一起模拟 2 小时
  2. 合同防线:SLA 上限 + 不可抗力 + 竞业 + vesting
  3. 备份 + 恢复:不只是备份,要定期验证能恢复

别做的

  • 别指望"不会发生"(一定会发生,只是时间问题)
  • 别临时写剧本(慌的时候写不出)
  • 别一个人扛(CEO 的第一职责是通知对的人)

最大 ROI:一份 10 页的危机剧本 + 每季度 2 小时演练 = 团队遇到事不慌。

On this page