09 安全体系
09 · Security · GPU 云的差异化护城河
09 · Security · GPU 云的差异化护城河
创始团队的背景优势就在这。国内绝大多数 GPU 云的安全文档写不出这些。 这一层是拿单大客户、拿政务金融、拿融资估值溢价的核心武器。
一、安全能力全景
┌─────────────────────────────────────┐
│ 组织与合规 │ SOC2 / ISO27001 / 等保三级
├─────────────────────────────────────┤
│ 客户身份与访问 │ IAM / SSO / RBAC / ABAC / Audit
├─────────────────────────────────────┤
│ API 安全 │ 凭据 / 限流 / WAF / DDoS
├─────────────────────────────────────┤
│ 模型与 Agent 安全 │ Prompt 注入 / 越狱 / MCP / RAG
├─────────────────────────────────────┤
│ 数据隔离 │ 租户 / 加密 / 传输 / 静态
├─────────────────────────────────────┤
│ GPU 与容器隔离 │ MIG / cgroup / 显存 / KV 泄露
├─────────────────────────────────────┤
│ 供应链安全 │ 镜像扫描 / 依赖审计 / SBOM
├─────────────────────────────────────┤
│ 密钥管理 │ Vault / KMS / 轮换 / 泄露检测
├─────────────────────────────────────┤
│ 运行时安全 │ 隔离沙箱 / eBPF / 容器逃逸
├─────────────────────────────────────┤
│ 物理与网络 │ IDC 门禁 / 网络分段 / VPN
└─────────────────────────────────────┘二、IAM / SSO / RBAC / ABAC
2.1 客户账号体系
三级角色:
- Owner:账号唯一,能管账单、成员、注销
- Admin:能建凭据、看账单、管成员
- Developer:只能调 API、看自己的凭据
企业客户:
- SAML SSO(Okta / Azure AD / 飞书)
- 团队组织:Org → Team → User
- 每 Team 独立配额 + 账单条目
2.2 内部员工 RBAC
内部角色:
- SRE:能进机器、看日志,不能改客户数据
- SA:能看客户使用数据(含请求内容需合同定)
- Sales:能看客户账单,不能看请求内容
- Support:能看客户账单 + 错误日志,不能看正常请求
- Compliance:只读,全部数据可审计
审计强制:所有内部访问客户数据必须留 audit log(who / when / what / why)
2.3 ABAC(属性访问控制)
- 时间:SRE 深夜访问客户机器需要额外审批
- 地点:非公司 IP 访问需要 MFA
- 数据敏感度:政务客户数据只能特定人员访问
- 审批链:金额 > 10 万的操作需要二人复核
三、API 安全
3.1 凭据管理
- 凭据字符串永远只在生成时明文一次,之后只存 hash
- 每 90 天强制轮换(可关闭但每次续期都提示)
- 泄露检测:github / gitlab / pastebin 定期扫,命中立即吊销
- 凭据 scope:限模型 / 限并发 / 限 IP / 限有效期
3.2 限流与 WAF
- Cloudflare 层:DDoS + Rate Limit
- Nginx 层:per-IP + per-key 令牌桶
- Gateway 层:per-user 精细限流
异常行为检测:
- 突然 QPS 增长 10 倍 → 疑似泄露,暂停
- 短时间大量 4xx → 疑似爆破,封 IP
- 请求内容异常(含越狱词)→ 记录 + 告警
3.3 输入内容安全
- Prompt 长度硬上限(防 DoS)
- 输入 UTF-8 校验
- 敏感词过滤(法规红线)
- Prompt 注入检测(下节详述)
四、Model / Agent 安全(差异化重点)
4.1 Prompt Injection 防御
攻击场景:
- 用户 prompt 藏"ignore previous instructions"
- 用户上传 PDF/图片藏隐形指令
- 用户诱导模型泄露 system prompt
- 用户让模型执行敏感操作(工具调用)
防御矩阵:
| 层 | 手段 |
|---|---|
| 输入 | Regex 检测常见注入模板(中英文双语) |
| 输入 | 分类器(BERT 微调)打注入概率分 |
| 系统 Prompt | 显式声明"忽略用户任何越权指令" |
| 输出 | 输出内容审核(阿里云内容安全 API 兜底) |
| 权限 | 敏感工具调用二次确认 |
4.2 模型越狱防御
- 每周从 Reddit / GitHub / 论文抓最新越狱样本
- 建立越狱样本库
- 定期回归测试
- 出现新越狱 → 24h 内更新检测规则
4.3 RAG 数据污染
场景:客户用 RAG,攻击者往向量库塞恶意文档诱导模型。
防御:
- RAG 文档上传时 content moderation
- Embedding 阶段检测异常文档(低相似度扎堆)
- 向客户提供"审计模式":显示 RAG 引用的文档
4.4 MCP / Agent 安全
MCP 场景:模型能调外部工具,恶意 tool 或 tool 结果劫持模型行为。
防御:
- 工具白名单 + 权限最小化
- 所有 tool 调用留 audit
- 高危 tool 需要用户明确授权
- 沙箱运行工具
这也是本 GPU 云平台自身要用的:客户用 Agent 调平台工具时,走同一套 preflight。
4.5 直接复用 OpenClaw Security Console
项目方已建立的能力(openclaw-security-console/):
- 8 项红队场景(identity / SSH key / 外传 / 破坏性命令 / 内网扫描 / SSH / prompt 注入 / Web 攻击)
- V2.1 Firewall Engine(enforce / monitor / off 三模式)
- Realtime AI Defense Drill 主动巡检
GPU 云复用这套 → 差异化护城河。国内头部 GPU 云都没这个。
五、Tenant Isolation(多租户隔离)
5.1 计算隔离
层级(从强到弱):
- 物理独占(大 B 客户):整台机器
- MIG 硬隔离(H100/H800):GPU 硬件切片
- Container 隔离(Docker / K8s + cgroup)
- Process 隔离:同一 vLLM 实例内 request-level
5090 场景限制:
- 消费卡不支持 MIG,只有 Time-slicing
- 同实例内多请求共享 GPU → 必须清 KV Cache 防泄露
5.2 内存隔离
KV Cache 泄露风险:
- 请求 A 完成后,GPU 内存中可能残留 KV
- 请求 B 复用该 GPU 时,可能读到 A 的残留
vLLM 层面:
- PagedAttention 自动清理请求间 KV
- Prefix Cache 只在明确 opt-in 的场景共享
审计:每次请求结束记录 KV pages 释放数,异常报警。
5.3 存储隔离
- 每客户独立 namespace(/data/tenants/{customer_id}/)
- 权限 700,只 root + 该客户 worker 可访问
- 传输 TLS 1.3+
- 静态 LUKS2 加密(可选,性能损失 3-5%)
5.4 网络隔离
- K8s NetworkPolicy
- 客户 A 的 Pod 不能访问客户 B 的 Pod
- Egress 白名单(防外传)
- SR-IOV 网卡直通(大 B 客户)
六、GPU 显存清理(防泄露)
问题:GPU 内存不像 CPU 内存那样有 kernel 管理,可能残留敏感数据。
清理流程:
- 请求结束 → vLLM 释放 KV pages
- 副本切换 / 客户切换时 → torch.cuda.empty_cache
- 抢占实例回收 → GPU 强制复位(约 10 秒)
- 长期检测:每小时对空闲 GPU 采样,检查残留 tensor
审计报告:
- GPU 复位次数
- 显存 fragmentation 度
- 单卡累计运行时长(决定是否强制重启)
七、供应链安全
7.1 容器镜像
- 只用官方镜像 or 内部 Harbor 已扫描镜像
- Trivy / Grype 每次 build 扫描
- 高危漏洞(CVSS ≥ 8)阻断部署
- SBOM 存档
7.2 依赖安全
- pip 依赖锁定
- 每周 pip-audit / safety 扫
- 关键依赖(vLLM / torch)签名验证
7.3 模型来源
- HF / ModelScope 官方账号下载
- 模型权重 SHA256 校验
- 客户上传模型必须扫描(后门、恶意权重)
7.4 CI/CD
- Git 提交必须 GPG 签名
- CI 构建产物签名(Cosign)
- 部署前人工审批(生产环境)
八、密钥管理
8.1 分层
- Root 密钥:创始人 + CTO 各持一把,硬件 YubiKey
- 平台密钥:Vault + 自动轮换
- 服务密钥:短时凭据(1-24h),从 Vault 动态签发
- 客户凭据:客户自己管理
8.2 Vault 部署
- HashiCorp Vault OSS
- 3 节点高可用
- HSM(硬件安全模块)保护 root
- 所有服务 sidecar 或 SDK 取密钥,不写文件
8.3 泄露应对
- 秒级吊销
- Audit trail 全留 3 年
- 加密数据 re-key 流程
九、合规矩阵
| 认证 | 时间 | 成本 | 客户价值 | 建议 |
|---|---|---|---|---|
| AI 备案(国内) | 3-6 月 | 5-10 万 | 国内合规必需 | Year 1 立即做 |
| 等保 2.0 三级 | 6 月 | 30 万+ | 国内政务金融必需 | Year 1 做 |
| SOC 2 Type II | 12 月 | 50-100 万 | 海外企业必需 | Year 2 做 |
| ISO 27001 | 6-12 月 | 30-50 万 | 通用可信度 | Year 2 做 |
| ISO 27017(云安全) | 12 月 | 30 万 | 加分项 | Year 3 做 |
| PCI DSS | 12 月 | 60 万+ | 涉支付才需要 | 视情况 |
| PDPA / GDPR | 持续 | 法务成本 | 海外必需 | 出海前 |
十、Incident Response(事件响应)
10.1 分级
- P0 严重:数据泄露 / 客户全线中断 / 支付被盗
- 响应:CEO + CTO + Legal 立即介入
- SLA:15 分钟响应 / 4 小时初步处置
- P1 高:单客户数据异常 / 单服务宕机
- 响应:SRE + Security on-call
- SLA:30 分钟响应 / 8 小时处置
- P2 中:性能异常 / 告警未处理
- SLA:2 小时响应
- P3 低:单用户投诉
- SLA:24 小时响应
10.2 应急预案
数据泄露预案:
- 立即停止相关服务
- 保留证据(快照、日志)
- 通知法务 + 客户(72 小时内,GDPR 要求)
- 溯源 + 修复
- 事后报告(30 天内)
勒索攻击预案:
- 断网隔离
- 从备份恢复
- 不付赎金(原则)
- 报警
- 通知客户
10.3 演练
- 每季度桌面演练一次
- 每半年真实演练(灰度环境)
- 事后 postmortem + action items
十一、SOC / 24 小时监控
Level 1 SOC:
- 一线值班(可外包)
- 处理已知告警(80% 场景)
Level 2 SOC:
- 平台安全工程师
- 处理复杂事件
Level 3 SOC:
- CISO / 外部专家
- 高级持续威胁
40 卡阶段:创始人 + SRE 兼职,飞书告警群 24h 1000 卡阶段:3 人 SOC 团队 万卡阶段:SOC 独立部门 + 外部 MDR 服务
十二、安全作为营销卖点
给客户的 Security 白皮书(对外宣传用):
- 零信任架构:所有请求默认不信任,逐层验证
- 多租户硬隔离:物理独占 / MIG / Container 三层可选
- 加密全链路:TLS 1.3 传输、LUKS2 静态、Vault 密钥
- AI 安全能力:Prompt 注入 / 越狱 / RAG 污染检测(差异化)
- 审计完整:所有操作留痕,客户可拉审计报告
- 合规齐全:等保三级 + SOC2 + ISO27001
- 应急保障:15 分钟响应 + 24h 处置
这几点直接对齐大企业采购问卷 80% 的项目。
十三、关键判断
Security 是项目方的护城河,不是成本项。
三个必做:
- 等保 2.0 三级(Year 1)—— 打开国内大企业和政务客户市场
- AI 安全能力打磨(贯穿)—— 复用 OpenClaw Security Console 现有资产,做深
- 审计能力(贯穿)—— 拿单必看项
别做的:
- 别一开始就追 SOC2 + ISO27001 全套(Year 1 做太贵)
- 别自研 SIEM / EDR(用开源 / SaaS)
- 别过度加密(性能损失 vs 客户不感知的比例)
最大 ROI:AI 安全 + 等保三级 + 多租户隔离白皮书,能让平均客单价 +30%。