LLMSYS-HPOBench
收藏LLMSYS-HPOBench 数据集概述
数据集简介
LLMSYS-HPOBench 是一个面向真实世界 LLM 系统的超参数优化基准测试套件。该项目收集来自不同 LLM 系统族的采样结果,将其标准化为共享表格格式,并提供轻量级 Python 接口用于评估观察到的配置。项目重点关注同时涉及 AI 参数和非 AI 系统参数的系统,例如推理引擎、RAG 流水线和智能体框架。
数据集内容
提供资源
- 通用 CSV 模式,用于 LLM 系统基准采样数据
- 组织系统、保真度、日志和硬件工件的文件布局
- 离线基准测试封装器
llmsys_hpobench.py - 现有系统的数据标准化脚本(包括针对 vLLM 的日志处理)
- 系统手册(位于
manuals/目录) - 贡献指南
CONTRIBUTING.md - Croissant 元数据文件
croissant.json和样本清单metadata/croissant_records.csv
内置系统注册
| 系统 | 注册路径 |
|---|---|
| vLLM | Engine/vLLM |
| SGLang | Engine/SGLang |
| openhands | Agent/openhands |
| autogpt | Agent/autogpt |
| html_rag | RAG/html_rag |
| LightRAG | RAG/LightRAG |
| naiverag | RAG/naiverag |
数据格式
目录结构
每个保真度目录包含一个主 CSV 文件和可选的工件文件夹:
{system}/ └── {fidelity_name}/ ├── {fidelity_name}.csv ├── log_file/ │ └── log-1.txt └── hw_file/ └── hw-1.txt
列前缀定义
| 列类型 | 格式 |
|---|---|
| 行 ID | ID |
| AI 超参数 | cfg-ai-{name} |
| 非 AI 超参数 | cfg-{name} |
| 目标指标 | obj-{name}+ 或 obj-{name}- |
| 成本指标 | cost-{name} |
| 硬件工件 | hw-file |
| 组合日志工件 | log-file |
使用方式
数据获取
全量数据包存档在 Zenodo 平台(https://zenodo.org/records/20048594),用户可独立于源代码下载。下载后解压到仓库根目录,保持路径为 experiment-data/。
命令行使用
bash uv run python llmsys_hpobench.py --root experiment-data --system vLLM --budget 3
Python API 使用
python from pathlib import Path from llmsys_hpobench import Benchmark
b = Benchmark(system="vLLM", root="experiment-data")
X = b.get_config_space() Z = b.get_fidelity_space()
z = Z.sample(random_state=0) x = X.sample(fidelity=z, random_state=0) m = b.evaluate(config=x, fidelity=z)
评估返回指标组
perf:目标指标cost:成本/资源指标hardware:硬件指标和hw-filelog:日志文件config:合并的 AI 和非 AI 配置值config_ai:AI 配置值config_non_ai:非 AI 配置值fidelity:保真度名称和 CSV 路径row:原始解析的 CSV 行
数据标准化工作流
- 对所有实验 CSV 进行原位标准化
- 对 vLLM、SGLang、AutoGPT 原始采样数据进行标准化
- 对 vLLM 服务器日志进行切片,使每行仅链接对应客户端运行的服务端片段
引用信息
bibtex @misc{llmsys-hpobench, title={LLMSYS-HPOBench: Hyperparameter Optimization Benchmark Suite for Real-World LLM Systems}, author={Siyu Wu and Yulong Ye and Zezhen Xiang and Pengzhou Chen and Gangda Xiong and Tao Chen}, year={2026}, howpublished={arXiv preprint arXiv:2605.08305} }




