AgentPerfBench

Hugging Face2026-05-04 更新2026-05-05 收录

下载链接：

https://huggingface.co/datasets/agent-perf-bench/AgentPerfBench

下载链接

链接失效反馈

官方服务：

资源简介：

AgentPerfBench是一个专注于大型语言模型（LLM）推理性能的基准测试数据集，旨在为推理引擎比较、LLM部署容量规划以及多轮会话中的首令牌时间（TTFT）扩展提供支持。数据集包含七种配置，覆盖了服务基准测试、内核性能分析、工作负载跟踪和延迟预测等多个方面。具体配置包括 trace_replay（3,147行）、distributional（245行）、kernels_labeled（148,077行）、roofline_quadrant（2,163行）、coding_agent_prompts（500行）、osworld_trajectories（60行）和 predictions（4,715行）。数据集涵盖了9种模型、14种GPU配置和2种服务引擎（vLLM 0.19.0和SGLang 0.5.9）的性能数据。所有模型均以BF16精度运行，除了gpt-oss使用mxfp4投影权重。数据集提供了详细的模式说明，包括运行ID、模型名称、硬件配置、服务引擎、工作负载配置文件、并发级别、请求吞吐量、令牌吞吐量以及各种延迟指标（如TTFT、TPOT、ITL和E2EL）。数据集适用于推理引擎性能比较、LLM部署的容量规划以及多轮会话中的性能分析。

AgentPerfBench is a benchmark dataset focused on the inference performance of large language models (LLMs), designed to support inference engine comparison, LLM deployment capacity planning, and first token time (TTFT) scaling in multi-turn conversations. The dataset includes seven configurations covering various aspects such as service benchmarking, kernel performance analysis, workload tracing, and latency prediction. Specific configurations include trace_replay (3,147 rows), distributional (245 rows), kernels_labeled (148,077 rows), roofline_quadrant (2,163 rows), coding_agent_prompts (500 rows), osworld_trajectories (60 rows), and predictions (4,715 rows). The dataset encompasses performance data from 9 models, 14 GPU configurations, and 2 service engines (vLLM 0.19.0 and SGLang 0.5.9). All models run with BF16 precision, except for gpt-oss which uses mxfp4 projected weights. The dataset provides detailed schema descriptions, including run ID, model name, hardware configuration, service engine, workload profile, concurrency level, request throughput, token throughput, and various latency metrics (such as TTFT, TPOT, ITL, and E2EL). The dataset is suitable for inference engine performance comparison, capacity planning for LLM deployment, and performance analysis in multi-turn conversations.

创建时间：

2026-05-04

原始信息汇总

AgentPerfBench 数据集概述

AgentPerfBench 是一个用于评估 LLM 推理性能的基准数据集，涵盖 3,392 次服务运行、148,077 个逐核 CUDA 剖析数据、4,715 条延迟预测数据以及 560 条工作负载轨迹，覆盖 9 个模型、14 种 GPU 配置和 2 个服务引擎（vLLM 0.19.0、SGLang 0.5.9）。所有模型均以 BF16 精度提供服务，gpt-oss 模型除外，其使用 mxfp4 精度的投影权重。

数据集配置（7 个）

1. trace_replay（3,147 行）

描述：回放来自真实 Agent 会话（SWE-Bench、TerminalBench、OSWorld、ShareGPT）的 ISL/OSL 序列。
覆盖范围：77 个独特的（模型，硬件，引擎）组合，涵盖 17 个配置文件（如 chat-medium、coding-singleturn、decode-heavy 等）和 6 个并发级别（1, 5, 10, 20, 40, 80）。
文件：trace_replay/summary.parquet

2. distributional（245 行）

描述：从拟合自真实工作负载统计的对数正态分布中采样 ISL/OSL。
覆盖范围：42 个独特的（模型，硬件，引擎）组合，涵盖 6 个配置文件（如 chat-multiturn、coding-singleturn 等）和 7 个并发级别（1, 5, 10, 40, 80, 200, 320）。
文件：distributional/summary.parquet

3. kernels_labeled（148,077 行）

描述：来自 NCU（Nsight Compute）的逐核 CUDA 剖析数据，覆盖 4 种 GPU（A100、H100、RTX 3090、RTX 2080Ti）和 13 个模型/扫描来源。
特征：包含 kernel_family、kernel_name、M/N/K 维度、gpu_time_duration_ms、dram_bytes_sum、launch_block_size、launch_grid_size 及寄存器压力等列。
文件：kernel_profiles/kernels_labeled.parquet

4. roofline_quadrant（2,163 行）

描述：每个核的操作强度与达成吞吐量，用于屋顶线分析。参考硬件为 H100（989 peak TFLOPS，3.35 TB/s HBM）。
文件：kernel_profiles/roofline_quadrant.parquet

5. coding_agent_prompts（500 行）

描述：来自 SWE-Bench 编码 Agent 会话的系统/用户提示对，附带输出 token 计数。
用途：用于推导 trace_replay 配置文件。
文件：workload_traces/coding_agent_prompts.parquet

6. osworld_trajectories（60 行）

描述：多轮 OSWorld 会话，每轮包含动作/观察数据（每会话最多 30 轮）。
用途：用于推导 trace_replay 配置文件。
文件：workload_traces/osworld_trajectories.parquet

7. predictions（4,715 行）

描述：每个服务配置的预测延迟与实际测量延迟数据。
特征：包含 ttft_pred/ttft_meas/ttft_err、tpot_pred/tpot_meas/tpot_err、e2el_pred/e2el_meas/e2el_err 以及缓存感知预测元数据（如 cache_hit_rate、cache_aware_applied、multiturn_prediction_mode）。
覆盖范围：14 种硬件配置，涵盖所有模型和配置文件。
文件：predictions/serving_predictions.parquet

硬件覆盖

所有基准测试在 PyTorch 2.10.0、CUDA 12.8 环境下收集。

GPU	VRAM	HBM 带宽	峰值半精度 TFLOPS
NVIDIA H100 SXM	80 GB	3.35 TB/s	989
NVIDIA A100 SXM4	40 GB	1.56 TB/s	312
NVIDIA RTX 3090	24 GB	936 GB/s	71
NVIDIA RTX 2080 Ti	11 GB	616 GB/s	27

支持 1、2、4 或 8 张 GPU 的张量并行配置。

模型覆盖

所有模型均以 BF16 提供服务，gpt-oss 系列使用 mxfp4 投影权重。

模型	系列	参数量	架构	备注
Llama-3.1-8B	Llama	8B	Dense
Llama-3.1-70B	Llama	70B	Dense
Llama-3.3-70B	Llama	70B	Dense
Qwen2.5-72B	Qwen	72B	Dense
Qwen3.5-9B	Qwen	9B	Dense
Qwen3.5-27B	Qwen	27B	Dense
Mixtral-8x7B	Mixtral	46.7B（12.9B 活跃）	MoE
gpt-oss-20b	GPT-OSS	21B（3.6B 活跃）	MoE	mxfp4 投影
gpt-oss-120b	GPT-OSS	117B（5.1B 活跃）	MoE	mxfp4 投影

引擎

vLLM 0.19.0
SGLang 0.5.9

数据模式（summary.parquet 公共列）

每条记录包含以下关键列：

run_id（string）：运行参数的确定性哈希
model（string）：模型短名称
model_family（string）：模型系列
hardware（string）：GPU 配置
engine（string）：服务引擎
tensor_parallelism（int）：张量并行度
profile（string）：工作负载配置文件名称
concurrency（int）：并发请求级别
num_requests（int）：总请求数
duration_s（float）：运行总时长
successful_requests（int）：成功请求数
failed_requests（int）：失败请求数
request_throughput（float）：每秒请求数
input_token_throughput/ output_token_throughput/ total_token_throughput（float）：各种 token 吞吐量
mean/median/p90/p99_ttft_ms（float）：首 token 延迟（TTFT）
mean/median/p90/p99_tpot_ms（float）：每输出 token 时间（TPOT）
mean/median/p90/p99_itl_ms（float）：token 间延迟（ITL）
mean/median/p90/p99_e2el_ms（float）：端到端延迟（E2EL）

基准测试方法

并发控制：闭环并发，使用信号量控制。
并发级别：
- trace_replay：{1, 5, 10, 20, 40, 80}
- distributional：{1, 5, 10, 40, 80, 200, 320}
预热：每次配置前进行 3 次请求预热。
指标：TTFT、TPOT、ITL、E2EL、请求吞吐量、token 吞吐量。
汇总统计：均值、中位数、p90、p99。
数据收集时间：2026 年 3 月起。

加载方式

python from datasets import load_dataset

ds = load_dataset("agent-perf-bench/AgentPerfBench", "trace_replay")

或使用 "distributional", "kernels_labeled", "roofline_quadrant",

"coding_agent_prompts", "osworld_trajectories", "predictions"

预期用途

在受控条件下进行推理引擎比较。
LLM 部署的容量规划。
多轮会话中 TTFT 随上下文长度的缩放分析。

局限性

结果仅适用于测试的特定硬件和软件版本（vLLM 0.19.0、SGLang 0.5.9、PyTorch 2.10.0、CUDA 12.8）。
分布配置文件来源于拟合分布，而非直接生产回放。
硬件覆盖聚焦于 NVIDIA 数据中心和工作站 GPU（H100、A100、RTX 3090、RTX 2080 Ti）。
仅使用闭环并发，未使用开环（泊松）到达模式。
仅包含精选的模型-硬件-引擎组合子集，未穷举所有可能配置。
此为系统级性能基准，模型输出质量不在范围内。

伦理考量

不包含个人身份信息（PII）。轨迹回放配置文件来自公开基准（SWE-Bench MIT、TerminalBench、OSWorld）。合成配置文件使用随机 token。

许可证

基准数据基于 Apache-2.0 许可证发布。源数据集保留其原始许可证。

源数据集

SWE-Bench（MIT）
TerminalBench
ShareGPT_Vicuna_unfiltered
OSWorld

搜集汇总

数据集介绍

构建方式

AgentPerfBench是一个面向Agentic工作负载的LLM推理性能基准数据集。其构建方式基于多维度系统化采集：通过回放真实Agent会话（如SWE-Bench、OSWorld）中的指令与输出序列，复现了17种代表性工作负载模式；同时，从对数正态分布中采样合成序列，以覆盖更广泛的场景。数据集收录了9种模型在14种GPU配置及两种主流推理引擎（vLLM 0.19.0与SGLang 0.5.9）上的执行轨迹，并通过NVIDIA Nsight Compute工具采集了超过14万条CUDA内核级性能剖析数据。此外，还包含基于缓存感知与多轮交互的延迟预测结果，从而形成了从微观内核到宏观服务端的完整性能画像。

特点

该数据集的核心特点在于其层次化与多维度的覆盖能力。它同时提供了服务级指标（如TTFT、TPOT、吞吐量）、内核级性能数据（如运算强度与访存带宽）以及工作负载轨迹，支持从系统瓶颈定位到端到端容量规划的全面分析。数据集特别关注Agent场景下的多轮交互与长上下文挑战，包含了细粒度的延迟分布统计与缓存命中率等元数据。所有实验均在受控闭环并发环境下进行，确保了结果的可复现性与可对比性。数据格式采用高效的Parquet文件，便于大规模处理与分析。

使用方法

用户可通过HuggingFace Datasets库便捷加载该数据集的各个子集。例如，使用`load_dataset("agent-perf-bench/AgentPerfBench", "trace_replay")`获取服务级基准结果，或选择`kernels_labeled`、`predictions`等配置以访问内核剖析与延迟预测数据。数据以表格形式组织，每行对应一次实验运行的汇总统计或一个内核调用的详细指标。适用于推理引擎性能对比、部署容量规划、以及多轮会话中首Token延迟缩放规律的研究。用户还可基于提供的轨迹数据，自定义工作负载并复现基准测试流程。

背景与挑战

背景概述

AgentPerfBench是一个专为评估代理型大语言模型（LLM）推理性能而构建的综合基准数据集，由匿名研究团队于2026年发布，旨在填补现有推理基准对多轮、交互式代理工作负载关注的空白。该数据集涵盖了9种模型、14种GPU配置及vLLM和SGLang两大推理引擎的3392次服务运行、148077个CUDA内核性能剖析数据、4715条延迟预测结果及560条工作负载轨迹，其核心研究问题在于系统性地量化代理型LLM在复杂多轮任务中的推理效率与瓶颈。通过整合SWE-Bench、TerminalBench、OSWorld等真实代理会话轨迹，AgentPerfBench为模型部署中的容量规划、引擎对比及延迟分析提供了权威的参考标准，对LLM系统优化与硬件选型领域产生了深远影响。

当前挑战

AgentPerfBench所解决的领域挑战主要在于代理型LLM推理过程中呈现出的动态性与异构性：多轮会话导致输入输出长度剧烈波动、缓存命中率变化多端，显著增加了延迟预测与资源调度的复杂度。在数据集构建过程中，研究团队面临了多重具体挑战，包括如何从异构的代理会话轨迹中提取代表性的序列模式以生成可复现的负载、如何在闭环并发控制下校准不同硬件与引擎组合的吞吐与延迟指标、以及如何确保分布性剖面与真实生产场景的统计一致性。此外，跨14种硬件配置与多种推理引擎的基准测试需处理软件栈版本差异带来的性能波动，而GPU内核级别的剖析则受限于CUDA可观测性工具的细粒度计数开销。

常用场景

经典使用场景

AgentPerfBench作为专为智能体型大语言模型推理性能设计的全面评估基准，其经典使用场景聚焦于对多样化代理工作负载下模型服务效能的系统性度量。研究者通常利用该数据集中的trace_replay配置，通过精确回放来自SWE-Bench、TerminalBench、OSWorld及ShareGPT等真实代理会话的输入输出长度序列，在vLLM与SGLang两种主流推理引擎上，对涵盖Llama、Qwen、Mixtral及GPT-OSS系列在内的9种模型进行端到端延迟（E2EL）、首令牌延迟（TTFT）、每输出令牌时间（TPOT）及吞吐量等核心指标的标准化基准测试，以此实现对不同模型-硬件-引擎组合在代理任务场景下推理效率的定量刻画与比较。

实际应用

在实际工程场景中，AgentPerfBench为云服务商与模型部署团队提供了关键的性能调优决策依据。基于该数据集中包含的预测模块，运维人员可以利用经过校准的延迟预测模型，针对特定硬件配置（如H100与A100的多GPU并行方案）与推理引擎组合，精准预估不同并发压力下代理应用的首令牌响应时间与吞吐瓶颈。这直接支撑了智能体服务的服务水平协议（SLA）制定、资源弹性伸缩策略设计以及推理加速技术的选型验证，例如通过分析roofline象限数据识别计算密集型与内存带宽受限型内核，从而指导算子融合与显存优化方案的部署优先级。

衍生相关工作

该数据集催生了多项具有影响力的衍生研究方向与工具链建设。在性能建模领域，研究者基于kernels_labeled配置中丰富的逐核属性（如M/N/K矩阵维度、寄存器压力、启动网格大小）开发了面向代理工作负载的延迟预测模型，实现了对TTFT与TPOT的高精度预估。在系统优化方面，roofline_quadrant配置为GPU算子级的性能瓶颈分析提供了标准化参照，推动了自适应内核选择与缓存感知调度策略的提出。此外，predictions模块中的多轮预测模式催生了面向长会话场景的延迟预算动态分配算法，而coding_agent_prompts与osworld_trajectories配置则被用于构建更为真实的代理负载生成器，以替代传统合成数据分布，进一步提升基准测试的现实相关性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集