16 风险管理
16 · 危机应对剧本
16 · 危机应对剧本
当 P0 事件发生时,没时间思考。剧本要提前背好。
一、数据泄露事件
T+0 · 发现
- 发现人:监控告警 / 客户报告 / 内部发现
- 第一动作:断网(不是关机,是物理断网线/禁用网卡)
- 通知:CEO + CTO + CISO + Legal(4 人,飞书紧急群)
T+1h · 评估
- CISO 评估泄露范围(哪些客户 / 什么数据 / 多少条)
- Legal 评估法律义务(GDPR 72h / 网信办 24h)
- CEO 决定是否需要报警
T+24h · 通知
- 受影响客户逐一通知(邮件 + 电话)
- 公开声明(status page + 微博/微信公众号)
- 监管机构报备
T+72h · 处置
- 漏洞修复 + 渗透测试
- 全量密码重置
- 审计日志保全(3 年)
T+7d · 复盘
- Postmortem 报告
- 改进措施 + 责任追究
- 客户赔偿方案
关键原则
- 不隐瞒:隐瞒被发现的后果比泄露本身严重 10 倍
- 不甩锅:平台承担全部责任,事后追偿
- 留证据:所有操作有 audit log
二、全线服务中断
T+0 · 发现
- 监控告警 / 客户大量报错
- on-call SRE 5 分钟内确认
T+5min · 分级
- SEV-1 → 全员响应
- 通知 CEO + CTO + 客户成功
T+15min · 通知客户
- Status page 更新
- 飞书群 + 邮件通知所有客户
- 客服话术统一
T+30min · 诊断
- SRE 定位故障范围(单机 / 全集群 / 网络 / 上游)
- 尝试回滚最近变更
T+1h · 恢复
- 优先恢复核心模型(Qwen2.5-14B / 7B)
- 非核心模型降级或下线
T+4h · 全恢复
- 所有服务恢复
- 监控观察 2h
T+24h · 复盘
- Postmortem
- 根因分析
- 预防措施
三、媒体危机
场景
- 媒体报道"某 GPU 云泄露客户数据"
- 社交媒体传播
- 客户恐慌
应对
- T+0:CEO 亲自起草声明
- T+1h:官方渠道发布(微博 / 公众号 / status page)
- T+2h:CEO 接受采访(如必要)
- T+24h:发布详细调查报告
- T+7d:发布改进措施 + 第三方审计报告
关键原则
- 不删帖:越删越火
- 不甩锅:即使不是我方的错也先担责
- 不沉默:沉默 = 默认
- 有温度:道歉要真诚,不要公关腔
四、客户集体诉讼
场景
- 多个客户因服务中断要求赔偿
- 律师事务所代理集体诉讼
应对
- T+0:Legal 介入,评估诉讼风险
- T+24h:主动联系牵头客户,协商和解
- T+7d:大多数客户和解(通常赔偿 = 1-3 个月服务费)
- T+30d:如无法和解,准备应诉
- 合同保护:客户签的合同里 SLA 赔偿上限 = 月消费额
关键原则
- 合同是最好的防线:SLA 条款 + 不可抗力 + 赔偿上限
- 和解优于诉讼:诉讼成本 > 赔偿成本
- 保留所有证据:服务记录 / 通信记录 / 监控数据
五、勒索软件攻击
场景
- 黑客加密了所有服务器
- 要求支付赎金(比特币)
应对
- T+0:断网隔离所有服务器
- T+1h:评估损失范围
- T+24h:从备份恢复(不付赎金)
- T+72h:核心服务恢复
- T+7d:安全加固 + 渗透测试
- 报警:网安部门
关键原则
- 不付赎金:付了也不一定解密,且助长犯罪
- 备份是生命线:每日全量 + 异地存 + 定期恢复演练
- 隔离是关键:内网分段,防止横向扩散
六、创始人 / 核心人员突发离职
场景
- CTO 突然提交辞职
- 带走核心技术知识
应对
- T+0:CEO 亲自谈话,了解真实原因
- T+1d:启动交接计划(代码 / 文档 / 权限)
- T+7d:权限收回(SSH / Vault / 生产环境)
- T+14d:启动紧急招聘
- T+30d:新 CTO 到位
- T+90d:团队信心恢复
关键原则
- 期权 vesting 是硬约束:未 vest 的期权自动收回
- 竞业协议:核心岗位签 1-2 年竞业
- 知识沉淀:所有核心决策有文档,不依赖单一人
七、现金流告急(Runway < 6 月)
场景
- 融资失败 + 月烧钱 > 月收入
应对
- T+0:CEO + CFO 全面审计支出
- T+7d:
- 冻结招聘
- 砍非核心支出(市场 / 差旅 / 福利)
- 推迟非紧急采购
- T+30d:
- 找过桥贷款 / 股东借款
- 催收客户预付款
- 考虑裁员(最后手段)
- T+90d:
- 如果仍无法续命:卖卡 / 卖客户资源 / 被并购
关键原则
- Runway < 6 月就启动:别等 < 3 月才慌
- 砍成本先砍非核心:技术团队最后动
- 透明沟通:投资人 / 员工 / 客户都要提前告知
八、关键判断
危机应对的核心不是"处理事件",是"提前演练"。
三个必做:
- 每季度桌面演练:选一个场景,团队坐一起模拟 2 小时
- 合同防线:SLA 上限 + 不可抗力 + 竞业 + vesting
- 备份 + 恢复:不只是备份,要定期验证能恢复
别做的:
- 别指望"不会发生"(一定会发生,只是时间问题)
- 别临时写剧本(慌的时候写不出)
- 别一个人扛(CEO 的第一职责是通知对的人)
最大 ROI:一份 10 页的危机剧本 + 每季度 2 小时演练 = 团队遇到事不慌。