12 数据体系
12 · Data · 数据体系
12 · Data · 数据体系
一家 AI 公司如果没有自己的数据资产,就是在给别人打工。
一、数据分层
Layer 5:BI Dashboard(老板看的)
Layer 4:数据集市(Data Mart,按主题)
Layer 3:数据仓库(Data Warehouse,ClickHouse)
Layer 2:数据湖(Data Lake,S3 + Parquet)
Layer 1:Raw Logs(Loki / Kafka / 原始 JSON)二、数据来源
Application 数据(PostgreSQL 主表):
- users / api_keys / balances / requests / billing / topups
- 关系型强,一致性要求高
Metrics 数据(Prometheus):
- GPU 指标(DCGM)
- 服务指标(vLLM /metrics)
- 主机指标(Node Exporter)
- 应用埋点(gateway 自定义)
Logs 数据(Loki):
- Nginx access log
- Gateway request log
- vLLM 引擎日志
- 系统 journal
Tracing 数据(Tempo / Jaeger):
- 请求链路追踪
- 跨服务调用
- 慢查询定位
Benchmark 数据(Benchmark Lab 采集):
- 每次测试完整参数 + 结果
- 详见 14-Benchmark
三、ETL Pipeline
Sources
↓
Airflow / Prefect(编排)
↓
Transform(Python / SQL)
↓
ClickHouse(分析仓库)
↓
Materialized Views(预聚合)
↓
Dashboard任务清单:
| 任务 | 频率 | 输入 | 输出 |
|---|---|---|---|
| Requests ETL | 每 5 分钟 | PG requests | CH fact_inference_metrics |
| GPU Metrics | 每分钟 | Prometheus | CH fact_gpu_metrics |
| Daily Aggregation | 每日 UTC 0 点 | CH facts | CH daily_agg(宽表) |
| Weekly Report | 每周一 | CH daily_agg | 邮件报表 |
| Monthly P&L | 每月 1 号 | CH facts | 财务报表 |
四、Metrics(指标口径)
技术指标:
- QPS(每模型 / 每副本)
- P50/P95/P99 latency
- Error rate(4xx / 5xx)
- Cache hit rate
业务指标:
- MRR / ARR / MRR growth rate
- Active Users(DAU / WAU / MAU)
- Retention(次日 / 7 日 / 30 日)
- CAC / LTV / LTV/CAC ratio
- Payback period
- Net Revenue Retention(NRR)
- Churn rate(logo / dollar)
运营指标:
- Onboarding conversion rate
- Support ticket / user
- SLA 达标率
- 客户健康度分布
财务指标:
- Revenue / Cost / Margin
- Burn rate
- Cash runway
- Gross margin per GPU
五、Dashboards(三层)
5.1 Operator Dashboard(每天 5 分钟)
见 08-FinOps 详细定义。
5.2 Executive Dashboard(每周 15 分钟)
- ARR / MRR / MRR Growth
- Active Users trend
- Top 10 Customers
- Churn Alert
- Cash Runway
- Team Headcount vs Plan
5.3 Customer Dashboard(客户自助)
- Usage / Spend this month
- API calls / Errors
- Latency trend
- Balance + estimated depletion
- Model breakdown
六、BI 工具选型
Year 1:Grafana + PG(直连)
- 成本:0
- 缺点:复杂分析吃力
Year 2:+ Metabase / Superset
- 成本:开源
- 好处:非技术人员能自建报表
Year 3:+ Looker / PowerBI(可选)
- 成本:商业授权
- 好处:企业级 BI
七、Data Quality
数据质量三原则:
- 完整性:不丢数据
- 准确性:数字对
- 及时性:延迟可控
监控:
- 每日跑 data quality check(Great Expectations)
- 关键指标异常告警(比如 revenue 突然 -50%)
- 定期对账(PG vs ClickHouse)
八、Customer Data 治理
分类:
- 公开数据(模型使用统计,可展示)
- 内部数据(成本、毛利,只内部)
- 敏感数据(客户 prompt 内容、账号信息,严格权限)
访问控制:
- 内部员工分级授权(见 09-Security)
- 敏感数据脱敏(PII 加密)
- 所有访问留 audit log
保留策略:
- 请求内容:默认 30 天(客户可关闭 → 0 天)
- Billing 数据:7 年(税务要求)
- Audit log:5 年(合规要求)
九、AI on Data(数据资产反哺)
9.1 数据资产用途
- 模型选型建议:给客户推荐性价比最高的模型
- 成本优化建议:给自己 FinOps 决策
- 客户流失预测:ML 模型预测流失
- 异常检测:请求异常 / 账单异常
- 定价优化:动态定价实验
9.2 数据反哺产品
- 客户看到"其他客户在你的场景下用什么模型"
- 客户看到"你的 prompt cache 命中率如何提升"
- 客户看到"节省 20% 成本的建议"
这是"数据飞轮" —— 客户越多,数据越丰富,建议越精准,客户越留存。
十、关键判断
数据是项目方未来的核心资产。
三个必做:
- 数据落库要完整(每个请求都要有 fact 记录)
- 口径要统一(MRR / Revenue 定义写清楚,别一人一套)
- Dashboard 三层设计(Operator / Executive / Customer)
别做的:
- 别自建 Hadoop / Spark(40 卡阶段用不上)
- 别过度指标(挑 10 个核心指标每天看)
- 别让开发直接查生产 PG(走 ClickHouse)
最大 ROI:搭一个"每日财务简报邮件",10 个核心指标发到管理层邮箱,每天早上 8 点。