14 基准测试资产
14 · Benchmark 数据资产
14 · Benchmark 数据资产
每次测试都是一次数据资产的积累。1000 个数据点 vs 100000 个数据点,最终形成技术护城河。
一、数据资产战略
目标:建立国内最完整的"LLM 推理性能数据库"。
为什么值钱:
- 客户选型必看的参考
- 内部决策的依据
- 融资 pitch 的技术资产
- 未来对外可商业化(付费查询 API 或报告订阅)
二、数据模型(ClickHouse)
CREATE TABLE benchmark_results (
test_id UUID,
test_time DateTime,
-- 环境
gpu_model String, -- 5090 / H100 / H800
driver_version String, -- 565.xx
cuda_version String, -- 12.6
os_version String, -- ubuntu-24.04
engine String, -- vllm-0.6.5 / sglang-0.3.7
engine_version String,
-- 模型
model_name String, -- Qwen2.5-14B-Instruct
model_size_params_b Float32,-- 14.0
quantization String, -- fp16 / fp8 / awq / gptq
-- 配置
tensor_parallel_size UInt8,
max_model_len UInt32,
gpu_memory_utilization Float32,
enable_prefix_caching Bool,
batch_size UInt32,
-- 输入
input_tokens_avg UInt32,
output_tokens_avg UInt32,
concurrency UInt32,
total_requests UInt32,
-- 输出性能
ttft_p50_ms Float32,
ttft_p90_ms Float32,
ttft_p99_ms Float32,
tpot_p50_ms Float32,
tpot_p90_ms Float32,
tpot_p99_ms Float32,
output_tps Float32,
total_throughput_tps Float32,
-- 硬件观测
gpu_util_avg Float32,
gpu_util_peak Float32,
gpu_mem_used_gb Float32,
gpu_power_avg_w Float32,
gpu_temp_peak_c Float32,
-- 质量
mmlu_score Nullable(Float32),
ceval_score Nullable(Float32),
humaneval_score Nullable(Float32),
quality_baseline_delta Nullable(Float32),
-- 稳定性
errors_count UInt32,
oom_count UInt32,
test_duration_sec UInt32,
-- 备注
notes String,
tags Array(String)
) ENGINE = MergeTree()
ORDER BY (gpu_model, model_name, engine, quantization, test_time);三、测试矩阵(要采集的组合)
基础矩阵(每周更新):
- 5 卡型(5090 / 4090 / A100 / H100 / H800)
- 15 模型(Qwen / DeepSeek / GLM / Llama / Mixtral 系列)
- 5 引擎(vLLM / SGLang / TRT-LLM / LMDeploy / TGI)
- 5 量化(FP16 / FP8 / AWQ / GPTQ / INT8)
- 4 并发(1 / 16 / 64 / 256)
- 6 长度(128/128 到 32K/2K)
理论组合数:5 × 15 × 5 × 5 × 4 × 6 = 45,000 实际采样:约 1000 个高价值组合 + 每周新增
四、自动化测试框架
bench-lab/
├── configs/ # 每次测试的 yaml 配置
├── scripts/
│ ├── run_test.py # 单次测试执行
│ ├── run_matrix.py # 矩阵批量执行
│ ├── parse_results.py # 结果解析
│ └── upload_to_ch.py # 入库 ClickHouse
├── engines/ # 各引擎启动模板
├── quality_check/ # lm-eval 集成
├── stability/ # 72h 稳定性测试
└── reports/ # 自动生成报告执行流:
- 从 configs/ 读取待测组合
- 启动引擎 + 采集基线 GPU 指标
- LLMPerf 压测
- 收集 vLLM /metrics + DCGM
- 关闭引擎 + 采集峰值指标
- lm-eval 质量测试(如果开启)
- 结果落 CSV + ClickHouse
五、报告自动生成
5.1 每日报告
- 昨日新增数据点数
- 新发现的最优组合
- 性能异常提醒
5.2 每周报告
- Top 10 性价比模型
- 引擎横评更新
- 量化收益分析
- 新模型上榜
5.3 每月报告
- 万卡决策更新
- 竞品对比(如有他们公开数据)
- 硬件路线建议
六、可视化
Grafana Dashboards:
- 每模型性能热力图
- 引擎横评雷达图
- 量化收益曲线
- 稳定性长期趋势
Public Dashboard(对外):
- 客户能看到"用哪个模型 + 用哪个引擎最划算"
- 差异化卖点
七、数据资产变现
7.1 内部使用
- 万卡采购决策
- 客户模型选型建议
- 定价优化
7.2 对外营销
- 技术博客素材
- 客户白皮书
- 融资 pitch 数据
7.3 商业化(长期)
- 付费查询 API
- 订阅制报告
- 咨询服务
八、关键判断
Benchmark 数据是项目方未来最大的技术资产之一。
三个必做:
- 每次测试都要严格记录(环境、参数、结果)
- 数据库要长期保留(3-5 年,历史数据能对比模型演进)
- 自动生成报告(不能靠人手)
别做的:
- 别只测"看起来好"的组合(也要测差组合排雷)
- 别相信厂商公开的数据(自己实测)
- 别把 Benchmark 变成 marketing 数据(要真实)
最大 ROI:一份高质量的 Benchmark 报告可以拿到融资溢价 + 客户信任。这是项目方最容易做出的技术差异化。