AgentLongBench
收藏AgentLongBench 数据集概述
数据集基本信息
- 数据集名称: AgentLongBench
- 核心定位: 首个通过模拟环境推演来评估长上下文智能体的基准测试。
- 评估核心: 评估智能体在32K至4M令牌的上下文范围内,执行动态信息合成、状态跟踪和非线性推理的能力。
- 对比特点: 区别于传统的检索基准,它基于横向思维谜题进行“环境推演”评估,超越了静态文档问答。
关键特性
- 动态交互: 通过基于横向思维谜题的“环境推演”评估智能体。
- 极端上下文长度: 支持从32K到4M令牌的可扩展上下文评估。
- 可控难度:
- 知识密集型: 使用真实世界实体(如宝可梦)来测试参数化记忆。
- 知识无关型: 使用符号掩码来严格测试上下文内推理。
- 信息密度测试:
- 简洁响应: 数百轮交互,测试记忆碎片化。
- 详细响应: 高密度工具日志,测试噪声中的信息检索。
数据集与标签
1. 标准标签
文件路径和日志中使用标准化缩写来区分设置。
| 维度 | 标签 | 全称 | 描述 |
|---|---|---|---|
| 知识 | ki |
知识密集型 | 依赖外部知识(例如,宝可梦名称)。 |
kf |
知识无关型 | 抽象实体(例如 Item_84)以隔离推理。 |
|
| 历史 | c |
简洁响应 | 过滤后的工具输出;创建长交互链。 |
v |
详细响应 | 原始/嘈杂的工具输出;测试信息过滤。 |
2. 任务分类
任务根据回答问题所需的信息源进行分类。
| 类别 | 任务 | 描述 |
|---|---|---|
| 🛠️ 工具响应 | Count Frequency, Find Duplicates, Find Target Offsets |
需要从机器生成的日志中解析精确细节。 |
| 🌍 环境响应 | Count Correctness, Count Frequency, Find Round with Largest Value, Weighted Summation |
需要跟踪状态变化和反馈约束。 |
| 🧠 最终猜测 | Intersection |
对全局理解和逻辑演绎的终极测试。 |
3. 数据布局
数据集结构按设置 → 长度 → 类别组织。
benchmark/ ├── ki-c/ # 知识密集型 + 简洁响应 ├── ki-v/ # 知识密集型 + 详细响应 ├── kf-c/ # 知识无关型 + 简洁响应 └── kf-v/ # 知识无关型 + 详细响应 └── <length>/ # 例如:128k, 1M, 4M ├── tool_response/ │ └── <question_type>.jsonl ├── env_response/ │ └── <question_type>.jsonl └── final_guess/ └── intersection.jsonl
获取方式
- 下载地址: https://huggingface.co/datasets/ign1s/AgentLongBench
- 说明: 由于体积原因,数据集未包含在代码仓库中,需从Hugging Face下载并放置在
agentlong_bench/benchmark/目录下。
快速开始
前提条件
- Python 3.8+
- vLLM(用于离线推理)
运行评估
从 AgentLongBench 仓库根目录运行:
- 单文件评估(在线API运行器):
bash scripts/eval_one.sh - 单文件离线vLLM评估:
bash scripts/run_vllm_one.sh
引用
如果使用本工作,请引用论文: bibtex @misc{fang2026agentlongbenchcontrollablelongbenchmark, title={AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts}, author={Shicheng Fang and Yuxin Wang and XiaoRan Liu and Jiahao Lu and Chuanyuan Tan and Xinchi Chen and Yining Zheng. Xuanjing Huang and Xipeng Qiu}, year={2026}, eprint={2601.20730}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2601.20730}, }




