AgentLongBench
收藏AgentLongBench Benchmark Dataset 概述
数据集简介
- 名称:AgentLongBench Benchmark Dataset
- 用途:用于AgentLong任务的标准化评估数据集。
- 性质:该目录是与
agentlong_bench代码库配套的纯数据部分,遵循固定布局,以便运行程序可以直接从路径推断知识/历史标签。
数据内容
- 核心任务:包含多轮“猜测实体”对话。
- 对话类型:
- 知识密集型内容(如宝可梦身份)。
- 无知识的掩码实体。
- 文件格式:每个JSONL文件包含单一
question_type的样本。 - 评估范围:评估套件涵盖工具响应问题、环境反馈问题和最终猜测问题。
目录结构
benchmark/ ki-c/ 或 ki-v/ 或 kf-c/ 或 kf-v/ <length>/ tool_response/ <question_type_slug>.jsonl env_response/ <question_type_slug>.jsonl final_guess/ <question_type_slug>.jsonl
- 前缀说明:
ki= 知识密集型,kf= 无知识。c= 简洁响应,v= 详细响应。
问题类型
- 工具响应:
- Count Frequency(Tool)
- Find Duplicates(Tool)
- Find Target Offsets(Tool)
- 环境响应:
- Count Correctness(Env)
- Count Frequency(Env)
- Find Round with Largest Value(Env)
- Weighted Summation(Env)
- 最终猜测:
- Intersection
数据模式(每条JSONL记录)
典型字段包括:
id:唯一样本ID。sample_id:原始样本标识符(如果可用)。question_type:上述标准问题类型之一。messages:对话历史(OpenAI风格的消息列表)。question:附加在历史记录后的任务问题。answer:用于评估的真实答案。- 可选字段:当任务依赖于轮次时,包含
round、i_round、j_round。
评估方法
评估是确定性的,取决于question_type和历史风格:
- 对于数字、布尔值和简洁交集答案,使用准确率。
- 对于具有
详细响应历史的Intersection,使用F1分数。 - 对于
Find Target Offsets(Tool),当只有第一项匹配时,给予部分分数。 - 有关提示模板、解析规则和评估逻辑的详细信息,请参考
AgentLongBench仓库。
快速开始
从AgentLongBench仓库根目录运行:
-
单文件评估(在线API运行器): bash bash scripts/eval_one.sh
-
单文件离线vLLM评估: bash bash scripts/run_vllm_one.sh
引用信息
如果此工作对您有用,请引用我们的论文: bibtex @misc{fang2026agentlongbenchcontrollablelongbenchmark, title={AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts}, author={Shicheng Fang and Yuxin Wang and XiaoRan Liu and Jiahao Lu and Chuanyuan Tan and Xinchi Chen and Yining Zheng. Xuanjing Huang and Xipeng Qiu}, year={2026}, eprint={2601.20730}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2601.20730}, }
许可协议
- 许可证:MIT




