AgentLongBench

github2026-01-29 更新2026-02-03 收录

下载链接：

https://github.com/euReKa025/AgentLongBench

下载链接

链接失效反馈

官方服务：

资源简介：

AgentLongBench是第一个通过模拟环境展开评估长上下文代理的基准测试数据集。与传统检索基准不同，它评估代理在32K到4M令牌范围内进行动态信息合成、状态跟踪和非线性推理的能力。

AgentLongBench is the first benchmark dataset for evaluating long-context AI Agents through simulated environments. Unlike traditional retrieval benchmarks, it assesses the agents' capabilities of dynamic information synthesis, state tracking and non-linear reasoning within the range of 32K to 4M tokens.

创建时间：

2026-01-13

原始信息汇总

AgentLongBench 数据集概述

数据集基本信息

数据集名称: AgentLongBench
核心定位: 首个通过模拟环境推演来评估长上下文智能体的基准测试。
评估核心: 评估智能体在32K至4M令牌的上下文范围内，执行动态信息合成、状态跟踪和非线性推理的能力。
对比特点: 区别于传统的检索基准，它基于横向思维谜题进行“环境推演”评估，超越了静态文档问答。

关键特性

动态交互: 通过基于横向思维谜题的“环境推演”评估智能体。
极端上下文长度: 支持从32K到4M令牌的可扩展上下文评估。
可控难度:
- 知识密集型: 使用真实世界实体（如宝可梦）来测试参数化记忆。
- 知识无关型: 使用符号掩码来严格测试上下文内推理。
信息密度测试:
- 简洁响应: 数百轮交互，测试记忆碎片化。
- 详细响应: 高密度工具日志，测试噪声中的信息检索。

数据集与标签

1. 标准标签

文件路径和日志中使用标准化缩写来区分设置。

维度	标签	全称	描述
知识	`ki`	知识密集型	依赖外部知识（例如，宝可梦名称）。
	`kf`	知识无关型	抽象实体（例如 `Item_84`）以隔离推理。
历史	`c`	简洁响应	过滤后的工具输出；创建长交互链。
	`v`	详细响应	原始/嘈杂的工具输出；测试信息过滤。

2. 任务分类

任务根据回答问题所需的信息源进行分类。

类别	任务	描述
🛠️ 工具响应	`Count Frequency`, `Find Duplicates`, `Find Target Offsets`	需要从机器生成的日志中解析精确细节。
🌍 环境响应	`Count Correctness`, `Count Frequency`, `Find Round with Largest Value`, `Weighted Summation`	需要跟踪状态变化和反馈约束。
🧠 最终猜测	`Intersection`	对全局理解和逻辑演绎的终极测试。

3. 数据布局

数据集结构按设置 → 长度 → 类别组织。

benchmark/ ├── ki-c/ # 知识密集型 + 简洁响应 ├── ki-v/ # 知识密集型 + 详细响应 ├── kf-c/ # 知识无关型 + 简洁响应 └── kf-v/ # 知识无关型 + 详细响应 └── <length>/ # 例如：128k, 1M, 4M ├── tool_response/ │ └── <question_type>.jsonl ├── env_response/ │ └── <question_type>.jsonl └── final_guess/ └── intersection.jsonl

获取方式

下载地址: https://huggingface.co/datasets/ign1s/AgentLongBench
说明: 由于体积原因，数据集未包含在代码仓库中，需从Hugging Face下载并放置在 agentlong_bench/benchmark/ 目录下。

快速开始

前提条件

Python 3.8+
vLLM（用于离线推理）

运行评估

从 AgentLongBench 仓库根目录运行：

单文件评估（在线API运行器）: bash scripts/eval_one.sh
单文件离线vLLM评估: bash scripts/run_vllm_one.sh

引用

如果使用本工作，请引用论文： bibtex @misc{fang2026agentlongbenchcontrollablelongbenchmark, title={AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts}, author={Shicheng Fang and Yuxin Wang and XiaoRan Liu and Jiahao Lu and Chuanyuan Tan and Xinchi Chen and Yining Zheng. Xuanjing Huang and Xipeng Qiu}, year={2026}, eprint={2601.20730}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2601.20730}, }

搜集汇总

数据集介绍

构建方式

在长上下文智能体评估领域，AgentLongBench通过模拟环境推演构建了一套可控的基准测试体系。该数据集以横向思维谜题为蓝本，设计了动态交互任务，涵盖从32K到4M令牌的极端上下文长度。构建过程中采用了知识密集与知识自由的双重路径，前者融入真实世界实体以检验参数化记忆，后者运用符号掩码技术纯粹评估上下文推理能力。信息密度测试则通过简洁响应与冗长响应的对比，分别考察记忆碎片化与噪声信息检索的挑战。

使用方法

使用AgentLongBench进行评估时，需遵循其结构化的数据组织方式。数据集按知识类型与响应模式分为四大设置，每个设置下进一步按上下文长度与任务类别进行分层。评估者可通过提供的脚本启动在线API或离线vLLM推理，运行单个文件的评估流程。任务分类涵盖工具响应、环境响应及最终猜测三大范畴，分别检验日志解析、状态跟踪与全局推理能力。用户需从HuggingFace平台下载数据集并按指定目录结构放置，随后即可基于标准化标签体系开展系统化的性能评测。

背景与挑战

背景概述

在人工智能领域，长上下文推理与智能体交互能力的评估一直是推动大语言模型发展的关键。AgentLongBench作为首个专注于长上下文智能体评估的基准，由Shicheng Fang等研究人员于2026年提出，旨在通过模拟环境推演，系统性地考察智能体在32K至4M令牌范围内的动态信息合成、状态追踪及非线性推理能力。该基准的构建不仅突破了传统检索式评估的局限，更通过引入横向思维谜题与可控难度设计，为长上下文智能体的性能度量提供了标准化框架，对推动具身智能与复杂任务规划研究具有深远影响。

当前挑战

AgentLongBench所应对的核心挑战在于长上下文智能体在极端序列长度下的信息处理与推理能力。具体而言，该数据集旨在解决智能体在动态交互环境中进行多轮状态追踪、碎片化记忆整合以及噪声干扰下的精准信息检索等复杂问题。在构建过程中，研究人员面临如何平衡知识密集与知识自由场景的难度控制、设计可扩展至百万级令牌的评估任务，以及确保工具日志与交互历史的数据真实性等多重挑战，这些因素共同构成了数据集构建的技术壁垒。

常用场景

经典使用场景

在长上下文智能体评估领域，AgentLongBench以其动态环境推演机制脱颖而出，成为衡量智能体在超长文本中执行复杂任务能力的黄金标准。该数据集通过模拟横向思维谜题，要求智能体在32K至4M令牌的广阔语境中，进行动态信息合成、状态追踪与非线性的逻辑推理，从而超越了传统静态文档问答的局限。

解决学术问题

AgentLongBench精准地解决了长上下文智能体研究中的核心挑战，即如何评估模型在极端语境长度下的信息整合与推理能力。通过知识密集型与知识无关的双重设置，该数据集有效区分了参数化记忆与上下文推理的贡献，为理解智能体的认知边界提供了可控的实验框架，推动了长上下文建模理论的发展。

实际应用

在实际应用层面，AgentLongBench为开发能够处理海量文档的智能助手奠定了评估基础。例如，在金融分析、法律文档审查或科研文献梳理中，智能体需要从数百万令牌的杂乱信息中精准提取关键细节并做出决策，该数据集的简洁响应与冗长响应测试正模拟了此类高密度信息过滤与碎片化记忆管理的现实需求。

数据集最近研究