AMA-bench

github2026-03-18 更新2026-03-15 收录

下载链接：

https://github.com/AMA-Bench/AMA-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

官方数据集位于huggingface.co/datasets/AMA-bench/AMA-bench。默认评估路径是`dataset/test/`。数据集仅包含一个测试分割——没有训练分割或`qa_set`目录。

The official dataset is hosted at huggingface.co/datasets/AMA-bench/AMA-bench. The default evaluation path is `dataset/test/`. The dataset only contains a test split, with no training split or `qa_set` directory.

创建时间：

2026-03-04

原始信息汇总

AMA-Bench 数据集概述

数据集基本信息

数据集名称: AMA-Bench
核心用途: 评估智能体在长视野轨迹上的记忆能力
官方数据集地址: https://huggingface.co/datasets/AMA-bench/AMA-bench
官方排行榜地址: https://huggingface.co/spaces/AMA-bench/AMA-bench-Leaderboard
相关论文地址: https://arxiv.org/abs/2602.22769
项目代码仓库地址: https://github.com/AMA-Bench/AMA-Hub.git

数据集内容与结构

数据内容: 包含用于评估智能体记忆的长轨迹数据。
数据分割: 仅包含测试集，无训练集。
默认评估路径: dataset/test/
主要数据文件: dataset/test/open_end_qa_set.jsonl

评估目标

AMA-Bench 评估一个方法是否能够：

从长的智能体轨迹中构建记忆。
针对给定问题检索相关证据。
稳健地回答开放式和多项选择题。

核心评估框架

所有方法共享一个统一的两阶段接口：

记忆构建阶段: memory_construction(traj_text, task="") — 从轨迹文本构建记忆对象。
记忆检索阶段: memory_retrieve(memory, question) — 为问题检索相关上下文。

评估与排行榜

评估流程: 运行 src/run.py 进行答案生成，随后使用 LLM-as-judge 进行评分，结果保存至 results/ 目录。
独立评估: 可使用脚本对已生成的答案文件进行单独评估。
提交至排行榜: 需在排行榜页面提交一个 JSONL 文件，每行需包含 episode_id 和 answer_list 字段，reasoning_trace 字段为可选。

评估者可靠性数据

针对 LLM-as-judge 设置的可靠性检查结果如下：

相对于人工标注的性能:
- 准确率: 92.67%
- 精确率: 96.45%
- 召回率: 92.68%
- F1 分数: 94.53%
不同评估模型间的一致性 (以 qwen3-32B 长上下文结果为例):
- GPT-5.4 与 GPT-5.2 的一致性: 94.58%
- GPT-5.2 与 Qwen3-32B 的一致性: 91.80%

项目结构

主要目录与文件说明：

src/method/: 记忆方法实现（如 BM25、embedding、AMA-Agent 等）。
src/synthetic_data_gen/: 轨迹合成工具（包含 BabyAI 和 TextWorld）。
configs/: 模型、评估者、方法的配置文件。
scripts/: 用于启动和评估的 Shell 脚本。
dataset/: 本地数据集（需单独下载测试集）。
results/: 预测输出和评估指标。

合成数据生成

数据集中的轨迹通过合成工具生成，主要包含两种环境：

BabyAI: 包含自然语言指令的网格世界导航任务。
TextWorld: 基于文本的交互式小说环境。

引用信息

如需引用，请使用提供的 BibTeX 条目。

许可证

本项目采用 MIT 许可证。

搜集汇总

数据集介绍

构建方式

在智能体研究领域，长期记忆能力的评估需要高质量且结构化的轨迹数据。AMA-Bench数据集通过合成数据生成技术构建，利用BabyAI网格世界导航任务和TextWorld文本交互虚构环境，自动生成包含自然语言指令的智能体长程轨迹。每条轨迹均通过状态追踪自动产生对应的问答对，并依据令牌长度进行分箱处理，确保了数据在任务复杂度和时间跨度上的多样性与可控性，为评估记忆架构提供了坚实且可复现的基础。

特点

该数据集的核心特点在于其专为评估长视野智能体记忆而设计的两阶段统一接口。所有评估方法均遵循记忆构建与记忆检索的分离架构，其中记忆构建阶段将轨迹文本转化为结构化记忆对象，检索阶段则根据给定问题从记忆对象中提取相关证据。数据集仅包含测试集，聚焦于开放问答与多项选择题的鲁棒性评估，并依托LLM-as-judge机制进行自动化评分，其评判模型与人工标注的一致性高达92.67%，确保了评估结果的可靠性与高效性。

使用方法

研究人员可通过Hugging Face平台直接下载数据集，并利用项目提供的标准化流程进行端到端评估。使用前需配置Python环境并安装依赖，通过运行脚本可启动vLLM服务器，调用预置或自定义的记忆方法完成答案生成。评估阶段支持对已有答案文件进行独立评判，并可进行多模型交叉验证以衡量评判者间一致性。用户还可将结果提交至官方排行榜，通过上传包含答案列表的JSONL文件参与公开比较，从而推动记忆方法在智能体应用中的持续优化。

背景与挑战

背景概述

随着智能体系统在复杂任务中扮演日益重要的角色，其长期记忆能力成为决定性能的关键因素。AMA-Bench由加州大学圣迭戈分校等机构的研究团队于2026年创建，旨在系统评估智能体在长轨迹任务中的记忆构建与检索效能。该基准通过合成轨迹数据与自动问答生成，聚焦于智能体如何从海量交互历史中提取并利用相关信息，以应对开放式与多项选择式提问。其提出的两阶段记忆架构为相关研究提供了标准化评估框架，对推动具身智能与记忆增强型代理的发展具有显著影响力。

当前挑战

AMA-Bench致力于解决智能体长时程记忆评估的核心难题，其挑战首先体现在领域层面：如何精准量化记忆系统在多变、冗长轨迹中的信息保持与关联推理能力，避免因任务异构性导致的评估偏差。其次，在构建过程中，研究团队需克服合成数据的真实性与复杂性平衡问题，确保生成的轨迹既能模拟现实场景的丰富性，又能通过自动化机制产生可靠的质量保证对。此外，设计统一的记忆接口以兼容多样化的方法实现，同时维持评估流程的严谨性与可复现性，亦是该基准面临的重要技术挑战。

常用场景

解决学术问题

该数据集旨在解决智能体研究中长期存在的记忆评估难题，特别是如何量化智能体在长序列决策过程中对历史信息的理解与利用效果。它通过合成轨迹与自动生成的问答对，为开放性问题与多项选择题提供了稳健的评估框架，有效弥合了记忆模型理论设计与实际性能验证之间的鸿沟。其意义在于建立了可复现、标准化的评估范式，推动了记忆智能体研究从定性分析向定量比较的深刻转变。

衍生相关工作

围绕AMA-Bench，研究社区已衍生出一系列探索记忆架构的经典工作。其提出的两阶段记忆接口已成为后续研究的通用范式，启发了对基于检索的增强、层次化记忆压缩以及动态记忆更新等机制的深入探索。同时，基于该基准开展的跨模型评估与一致性分析工作，进一步巩固了LLM-as-Judge在记忆评估中的可信度，为相关领域的评估方法论树立了新的标杆。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集