14 · Benchmark 数据资产

每次测试都是一次数据资产的积累。1000 个数据点 vs 100000 个数据点，最终形成技术护城河。

一、数据资产战略

目标：建立国内最完整的"LLM 推理性能数据库"。

为什么值钱：

客户选型必看的参考
内部决策的依据
融资 pitch 的技术资产
未来对外可商业化（付费查询 API 或报告订阅）

二、数据模型（ClickHouse）

CREATE TABLE benchmark_results (
  test_id UUID,
  test_time DateTime,

  -- 环境
  gpu_model String,           -- 5090 / H100 / H800
  driver_version String,      -- 565.xx
  cuda_version String,        -- 12.6
  os_version String,          -- ubuntu-24.04
  engine String,              -- vllm-0.6.5 / sglang-0.3.7
  engine_version String,

  -- 模型
  model_name String,          -- Qwen2.5-14B-Instruct
  model_size_params_b Float32,-- 14.0
  quantization String,        -- fp16 / fp8 / awq / gptq

  -- 配置
  tensor_parallel_size UInt8,
  max_model_len UInt32,
  gpu_memory_utilization Float32,
  enable_prefix_caching Bool,
  batch_size UInt32,

  -- 输入
  input_tokens_avg UInt32,
  output_tokens_avg UInt32,
  concurrency UInt32,
  total_requests UInt32,

  -- 输出性能
  ttft_p50_ms Float32,
  ttft_p90_ms Float32,
  ttft_p99_ms Float32,
  tpot_p50_ms Float32,
  tpot_p90_ms Float32,
  tpot_p99_ms Float32,
  output_tps Float32,
  total_throughput_tps Float32,

  -- 硬件观测
  gpu_util_avg Float32,
  gpu_util_peak Float32,
  gpu_mem_used_gb Float32,
  gpu_power_avg_w Float32,
  gpu_temp_peak_c Float32,

  -- 质量
  mmlu_score Nullable(Float32),
  ceval_score Nullable(Float32),
  humaneval_score Nullable(Float32),
  quality_baseline_delta Nullable(Float32),

  -- 稳定性
  errors_count UInt32,
  oom_count UInt32,
  test_duration_sec UInt32,

  -- 备注
  notes String,
  tags Array(String)
) ENGINE = MergeTree()
ORDER BY (gpu_model, model_name, engine, quantization, test_time);

三、测试矩阵（要采集的组合）

基础矩阵（每周更新）：

5 卡型（5090 / 4090 / A100 / H100 / H800）
15 模型（Qwen / DeepSeek / GLM / Llama / Mixtral 系列）
5 引擎（vLLM / SGLang / TRT-LLM / LMDeploy / TGI）
5 量化（FP16 / FP8 / AWQ / GPTQ / INT8）
4 并发（1 / 16 / 64 / 256）
6 长度（128/128 到 32K/2K）

理论组合数：5 × 15 × 5 × 5 × 4 × 6 = 45,000 实际采样：约 1000 个高价值组合 + 每周新增

四、自动化测试框架

bench-lab/
├── configs/                    # 每次测试的 yaml 配置
├── scripts/
│   ├── run_test.py             # 单次测试执行
│   ├── run_matrix.py           # 矩阵批量执行
│   ├── parse_results.py        # 结果解析
│   └── upload_to_ch.py         # 入库 ClickHouse
├── engines/                    # 各引擎启动模板
├── quality_check/              # lm-eval 集成
├── stability/                  # 72h 稳定性测试
└── reports/                    # 自动生成报告