five

AgentLongBench

收藏
arXiv2026-01-29 更新2026-01-30 收录
下载链接:
https://huggingface.co/datasets/ign1s/AgentLongBench
下载链接
链接失效反馈
官方服务:
资源简介:
AgentLongBench是由复旦大学和上海创新研究院联合开发的动态交互评估基准,旨在通过模拟环境推演来测试长上下文代理的推理能力。该数据集包含800个样本,覆盖32K至4M tokens的上下文长度,数据来源于横向思维谜题的环境交互日志,通过知识密集型和知识无关两种场景生成。其构建过程采用自动化规则模拟,确保逻辑连贯性。该数据集主要应用于评估大语言模型在动态信息合成、状态跟踪和长程规划中的表现,解决现有静态基准无法捕捉代理-环境交互复杂性的问题。

AgentLongBench is a dynamic interactive evaluation benchmark jointly developed by Fudan University and Shanghai Research Institute for Innovation, designed to test the reasoning capabilities of long-context AI agents via simulated environment deduction. This dataset comprises 800 samples with context lengths spanning from 32K to 4M tokens. Its data is sourced from environment interaction logs of lateral thinking puzzles, and is generated under two scenarios: knowledge-intensive and knowledge-agnostic. The construction of the dataset employs automated rule-based simulation to guarantee logical coherence. It is primarily applied to evaluate the performance of large language models (LLMs) in dynamic information synthesis, state tracking and long-range planning, thereby resolving the limitation that existing static benchmarks fail to capture the complexity of agent-environment interactions.
提供机构:
复旦大学; 上海创新研究院; 苏州大学
创建时间:
2026-01-29
原始信息汇总

AgentLongBench Benchmark Dataset 概述

数据集简介

  • 名称:AgentLongBench Benchmark Dataset
  • 用途:用于AgentLong任务的标准化评估数据集。
  • 性质:该目录是与agentlong_bench代码库配套的纯数据部分,遵循固定布局,以便运行程序可以直接从路径推断知识/历史标签。

数据内容

  • 核心任务:包含多轮“猜测实体”对话。
  • 对话类型
    1. 知识密集型内容(如宝可梦身份)。
    2. 无知识的掩码实体。
  • 文件格式:每个JSONL文件包含单一question_type的样本。
  • 评估范围:评估套件涵盖工具响应问题、环境反馈问题和最终猜测问题。

目录结构

benchmark/ ki-c/ 或 ki-v/ 或 kf-c/ 或 kf-v/ <length>/ tool_response/ <question_type_slug>.jsonl env_response/ <question_type_slug>.jsonl final_guess/ <question_type_slug>.jsonl

  • 前缀说明
    • ki = 知识密集型,kf = 无知识。
    • c = 简洁响应,v = 详细响应。

问题类型

  • 工具响应
    • Count Frequency(Tool)
    • Find Duplicates(Tool)
    • Find Target Offsets(Tool)
  • 环境响应
    • Count Correctness(Env)
    • Count Frequency(Env)
    • Find Round with Largest Value(Env)
    • Weighted Summation(Env)
  • 最终猜测
    • Intersection

数据模式(每条JSONL记录)

典型字段包括:

  • id:唯一样本ID。
  • sample_id:原始样本标识符(如果可用)。
  • question_type:上述标准问题类型之一。
  • messages:对话历史(OpenAI风格的消息列表)。
  • question:附加在历史记录后的任务问题。
  • answer:用于评估的真实答案。
  • 可选字段:当任务依赖于轮次时,包含roundi_roundj_round

评估方法

评估是确定性的,取决于question_type和历史风格:

  • 对于数字、布尔值和简洁交集答案,使用准确率。
  • 对于具有详细响应历史的Intersection,使用F1分数。
  • 对于Find Target Offsets(Tool),当只有第一项匹配时,给予部分分数。
  • 有关提示模板、解析规则和评估逻辑的详细信息,请参考AgentLongBench仓库。

快速开始

AgentLongBench仓库根目录运行:

  • 单文件评估(在线API运行器): bash bash scripts/eval_one.sh

  • 单文件离线vLLM评估: bash bash scripts/run_vllm_one.sh

引用信息

如果此工作对您有用,请引用我们的论文: bibtex @misc{fang2026agentlongbenchcontrollablelongbenchmark, title={AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts}, author={Shicheng Fang and Yuxin Wang and XiaoRan Liu and Jiahao Lu and Chuanyuan Tan and Xinchi Chen and Yining Zheng. Xuanjing Huang and Xipeng Qiu}, year={2026}, eprint={2601.20730}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2601.20730}, }

许可协议

  • 许可证:MIT
搜集汇总
数据集介绍
main_image_url
构建方式
在长上下文智能体评估领域,AgentLongBench通过模拟环境推演构建动态交互轨迹,突破了传统静态检索基准的局限。该数据集以横向思维谜题为核心测试平台,通过基于规则的自动化仿真生成交互序列,确保逻辑一致性与可验证性。构建过程涵盖知识密集与知识无关两种场景,并设计了简洁与冗长两种工具响应格式,通过调整谜题约束粒度或链接触发会话来扩展上下文长度,从而生成了从32K到4M令牌的大规模可控轨迹。
特点
AgentLongBench的核心特征在于其动态交互评估范式与精细可控的维度设计。数据集通过环境推演模拟智能体与反应式系统间的持续交互,保留了真实工作流中的因果依赖性,避免了静态文本拼接造成的信息割裂。其独特之处在于正交的双维度架构:知识密集场景利用真实世界实体触发参数化记忆,而知识无关场景通过完全符号化掩码消除语义线索,纯粹评估上下文推理能力;同时,简洁响应格式通过扩展交互轮次测试长程状态追踪,冗长响应格式则通过高密度信息块检验信息过载处理能力。
使用方法
AgentLongBench为评估长上下文智能体的核心认知能力提供了结构化框架。使用者可通过加载数据集中的交互轨迹,针对八类任务评估模型性能,这些任务分为三大认知维度:工具响应问答检验机器生成日志的解析鲁棒性,环境响应问答评估动态状态追踪与历史反馈解释能力,最终猜测任务则测试全局理解与逻辑整合。评估时需区分四种实验配置,并关注模型在扩展上下文长度下的性能衰减模式,特别是其在信息定位与逻辑一致性维持方面的表现,从而诊断智能体在长视界工作流中的具体失败机制。
背景与挑战
背景概述
随着大语言模型向自主智能体的演进,处理动态长上下文的能力成为关键挑战。现有基准大多依赖静态检索任务,难以模拟智能体与环境交互的复杂性。为此,复旦大学等机构的研究团队于2026年提出了AgentLongBench,该数据集通过基于横向思维谜题的环境推演,生成了从32K到4M令牌的动态交互轨迹,旨在评估智能体在长视野下的状态追踪与规划能力。其核心研究问题聚焦于智能体在知识密集与知识无关场景中,对非线性推理与迭代反馈的适应性,为长上下文智能体的评估提供了可控且可扩展的框架,推动了自主智能系统研究向动态交互范式的转变。
当前挑战
AgentLongBench所针对的领域挑战在于评估智能体在动态长上下文中的综合推理能力,超越了传统静态检索任务。具体而言,智能体需在知识密集场景中避免参数记忆的干扰,在知识无关场景中纯粹依赖上下文逻辑进行状态追踪,并处理高密度工具日志带来的信息过载。在构建过程中,挑战体现在生成可验证且逻辑一致的交互轨迹,需通过自动化环境推演确保因果依赖的完整性,同时平衡交互轮次与信息密度的设计,以区分记忆碎片化与信息过载导致的性能衰减。此外,数据集的扩展性要求在不同上下文长度下维持任务难度与逻辑连贯性,这对仿真引擎的精确控制提出了较高要求。
常用场景
经典使用场景
在大型语言模型向自主智能体演进的背景下,AgentLongBench的经典使用场景聚焦于评估智能体在长上下文环境中的动态交互与状态追踪能力。该数据集通过模拟环境推演,构建了基于横向思维谜题的交互轨迹,智能体需通过多轮工具调用与环境反馈,逐步推理出隐藏目标。其核心在于测试智能体在知识密集与知识无关两种场景下,处理从32K至4M令牌的扩展上下文时,能否维持逻辑一致性与规划能力,而非仅仅执行静态文档检索。
解决学术问题
AgentLongBench旨在解决长上下文智能体评估中的关键学术问题。传统基准大多依赖静态的、被动检索任务,无法捕捉智能体与环境交互中产生的非线性推理与迭代反馈等复杂性。该数据集通过可控的环境推演,生成了动态的交互轨迹,从而能够诊断智能体在长视野任务中的失败模式,例如对参数化知识的过度依赖、长轮次交互与高密度单轮输出之间的权衡,以及处理高信息密度工具日志时面临的显著推理负担。其引入的“充分上下文长度”概念,为理解性能退化提供了量化解释,推动了智能体评估从静态理解向动态交互的范式转变。
衍生相关工作
AgentLongBench的提出,与长上下文评估及智能体记忆系统的前沿研究紧密互动。在长上下文基准方面,它与NeedleBench、BABILong、LooGLE、∞-Bench等工作共同拓展了评估维度,但其独特贡献在于将评估焦点从静态文档转向动态的智能体-环境交互轨迹。在智能体记忆与增强检索领域,该数据集对RAG、A-Mem、Mem0、MemoryOS等外部记忆架构的评估结果,揭示了当前机制在支持长视野状态追踪与高ACL证据定位方面的局限性,从而激励了后续研究探索更适应智能体工作流的、能够保持逻辑依赖性的新型记忆与检索方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作