LLMSYS-HPOBench

github2026-05-12 更新2026-05-13 收录

下载链接：

https://github.com/ideas-labo/llmsys-hpobench

下载链接

链接失效反馈

官方服务：

资源简介：

LLMSYS-HPOBench是一个用于大语言模型系统超参数优化的实时基准测试和数据组织项目，它收集来自不同LLM系统家族的采样结果，将其规范化为共享的表格格式，并提供一个轻量级的Python接口来评估观察到的配置。该项目专注于AI参数和非AI系统参数都重要的系统，如推理引擎、RAG管道和代理框架。每个基准行将测量的目标/成本值链接回相应的客户端日志、服务器日志和硬件工件（当这些工件可用时）。

LLMSYS-HPOBench is a real-time benchmarking and data organization project for large language model (LLM) system hyperparameter optimization. It collects sampling results from diverse LLM system families, standardizes them into a shared tabular format, and provides a lightweight Python interface for evaluating observed configurations. This project focuses on systems where both AI-related parameters and non-AI system parameters are critical, such as inference engines, Retrieval-Augmented Generation (RAG) pipelines, and AI Agent frameworks. Each benchmark entry links the measured objective/cost values back to their corresponding client logs, server logs, and hardware artifacts (when such artifacts are available).

创建时间：

2026-05-03

原始信息汇总

LLMSYS-HPOBench 数据集概述

数据集简介

LLMSYS-HPOBench 是一个面向真实世界 LLM 系统的超参数优化基准测试套件。该项目收集来自不同 LLM 系统族的采样结果，将其标准化为共享表格格式，并提供轻量级 Python 接口用于评估观察到的配置。项目重点关注同时涉及 AI 参数和非 AI 系统参数的系统，例如推理引擎、RAG 流水线和智能体框架。

数据集内容

提供资源

通用 CSV 模式，用于 LLM 系统基准采样数据
组织系统、保真度、日志和硬件工件的文件布局
离线基准测试封装器 llmsys_hpobench.py
现有系统的数据标准化脚本（包括针对 vLLM 的日志处理）
系统手册（位于 manuals/ 目录）
贡献指南 CONTRIBUTING.md
Croissant 元数据文件 croissant.json 和样本清单 metadata/croissant_records.csv

内置系统注册

系统	注册路径
vLLM	Engine/vLLM
SGLang	Engine/SGLang
openhands	Agent/openhands
autogpt	Agent/autogpt
html_rag	RAG/html_rag
LightRAG	RAG/LightRAG
naiverag	RAG/naiverag

数据格式

目录结构

每个保真度目录包含一个主 CSV 文件和可选的工件文件夹：

{system}/ └── {fidelity_name}/ ├── {fidelity_name}.csv ├── log_file/ │ └── log-1.txt └── hw_file/ └── hw-1.txt

列前缀定义

列类型	格式
行 ID	ID
AI 超参数	cfg-ai-{name}
非 AI 超参数	cfg-{name}
目标指标	obj-{name}+ 或 obj-{name}-
成本指标	cost-{name}
硬件工件	hw-file
组合日志工件	log-file

使用方式

数据获取

全量数据包存档在 Zenodo 平台（https://zenodo.org/records/20048594），用户可独立于源代码下载。下载后解压到仓库根目录，保持路径为 experiment-data/。

命令行使用

bash uv run python llmsys_hpobench.py --root experiment-data --system vLLM --budget 3

Python API 使用

python from pathlib import Path from llmsys_hpobench import Benchmark

b = Benchmark(system="vLLM", root="experiment-data")

X = b.get_config_space() Z = b.get_fidelity_space()

z = Z.sample(random_state=0) x = X.sample(fidelity=z, random_state=0) m = b.evaluate(config=x, fidelity=z)

评估返回指标组

perf：目标指标
cost：成本/资源指标
hardware：硬件指标和 hw-file
log：日志文件
config：合并的 AI 和非 AI 配置值
config_ai：AI 配置值
config_non_ai：非 AI 配置值
fidelity：保真度名称和 CSV 路径
row：原始解析的 CSV 行

数据标准化工作流

对所有实验 CSV 进行原位标准化
对 vLLM、SGLang、AutoGPT 原始采样数据进行标准化
对 vLLM 服务器日志进行切片，使每行仅链接对应客户端运行的服务端片段

引用信息

bibtex @misc{llmsys-hpobench, title={LLMSYS-HPOBench: Hyperparameter Optimization Benchmark Suite for Real-World LLM Systems}, author={Siyu Wu and Yulong Ye and Zezhen Xiang and Pengzhou Chen and Gangda Xiong and Tao Chen}, year={2026}, howpublished={arXiv preprint arXiv:2605.08305} }

搜集汇总

数据集介绍

构建方式

在大规模语言模型（LLM）系统实际落地的背景下，超参数优化（HPO）面临AI与非AI参数耦合的复杂挑战。LLMSYS-HPOBench应运而生，作为一个面向LLM系统超参数优化的实时基准测试与数据组织项目。其构建方式遵循标准化流程：从vLLM、SGLang等推理引擎，AutoGPT、OpenHands等智能体框架，以及HTML-RAG、LightRAG等检索增强生成（RAG）管线中，采集抽样运行结果。数据经过归一化脚本处理，转化为统一的CSV格式，并按照系统类别（Agent/Engine/RAG）与保真度（fidelity）目录层级组织。每个保真度目录包含主CSV文件，以及关联的客户端日志、服务端日志与硬件工件文件，实现原始数据与基准样本的可追溯映射。

使用方法

使用者可通过轻量级Python接口与命令行工具交互。在下载Zenodo数据包并解压至仓库根目录后，运行`uv run python llmsys_hpobench.py --root experiment-data --system vLLM --budget 3`即可从CLI采样基准。在Python代码中，实例化Benchmark类并指定系统和根目录，通过get_config_space()与get_fidelity_space()获取参数空间，用evaluate()方法评估配置并获取性能、成本、硬件与日志等分组测量结果。默认情况下，未找到精确配置时返回最近观测行，也可通过设置on_missing="error"要求精确匹配。对于新系统，可调用register_system()函数动态注册，或遵循CONTRIBUTING.md指南提交完整贡献。

背景与挑战

背景概述

LLMSYS-HPOBench是由Siyu Wu、Yulong Ye等研究者于2026年创立的超参数优化基准套件，聚焦于大语言模型（LLM）系统的实际部署场景。该数据集源于对推理引擎、RAG管道及智能体框架中AI参数与非AI系统参数协同优化的迫切需求。通过统一CSV模式与轻量级Python接口，它将不同LLM系统家族的采样结果标准化，为评估配置性能与成本提供了可复现的平台。项目已在arXiv发表，并通过Zenodo归档，对超参数优化与LLM系统工程领域产生了显著影响，尤其在推动多组件系统的高效调优方面具有里程碑意义。

当前挑战

LLMSYS-HPOBench面临的挑战涵盖两大方面。首要挑战是解决领域问题：现有基准多针对单一模型或静态环境，而真实LLM系统（如vLLM、AutoGPT）的部署需要同时优化AI超参数（如学习率）与非AI参数（如请求速率、并发度），且性能受硬件日志、系统故障等噪声干扰。其次，构建过程面临数据异构性难题——不同系统（如SGLang与AutoGPT）的原始日志格式迥异，需设计通用归一化脚本（如slice_vllm_server_logs.py）处理时间戳对齐、跨夜日志分割及故障样本保留。此外，保证CSV模式中目标方向标识（如obj-+/-）的准确性，并维护实验数据与Zenodo存档的版本一致性，进一步增加了构建的复杂度。

常用场景

经典使用场景

LLMSYS-HPOBench的核心应用场景在于为大规模语言模型（LLM）系统的超参数优化（HPO）提供标准化、可复现的离线评估基准。该数据集精心收集了来自多种主流LLM系统族（如推理引擎vLLM、SGLang，智能体框架OpenHands、AutoGPT，以及RAG流水线LightRAG等）在不同配置下的采样结果，并通过统一的CSV表格式样对这些多源异构数据进行规范化整合。研究者可利用该数据集所提供的轻量级Python接口，在给定系统与保真度（如请求速率、并发度等）条件下，高效地观测并比较不同超参数组合（涵盖AI参数及非AI系统参数）所对应的性能目标与资源开销，从而为LLM系统的超参数调优实验提供坚实的数据支撑。

解决学术问题

该数据集有效解决了当前LLM系统领域缺乏综合性、标准化超参数优化基准的学术困境。现有研究多聚焦于单一模型架构或独立组件（如推理引擎），鲜有同时覆盖AI参数与非AI系统参数（如批处理大小、调度策略）并兼顾多种LLM系统范式的基准平台。LLMSYS-HPOBench通过构建统一的数据格式、清晰的目录结构（按Agent/Engine/RAG类别组织）以及完备的归一化脚本，显著降低了跨系统比较与复现研究的门槛。其系统化的实验日志与硬件工件的关联机制，更使得深入分析不同配置下性能瓶颈的根因成为可能，推动了LLM系统领域从经验调优向可溯源的科学化实验范式迈进。

实际应用

在实际工业部署中，LLMSYS-HPOBench为LLM系统的工程优化提供了宝贵的离线调优沙盒。开发者可依托该数据集内置的多种真实系统配置与性能轨迹，在无需搭建完整线上环境的情况下，快速评估诸如推理引擎的批处理策略、RAG流水线的文本分块大小等关键参数对系统延迟、吞吐量及成本的影响。例如，利用其包含的vLLM/SGLang引擎采样数据，工程师能系统性地权衡模型精度与推理效率；而AutoGPT、LightRAG等智能体与RAG系统的数据，则直接服务于自动化Agent的工作流优化与知识检索链路的性能诊断。该数据集编排好的归一化数据与便捷的Benchmark API，使团队能够低门槛地开展对比实验，显著加速LLM系统从研究原型到稳健服务的工程落地进程。

数据集最近研究