AMemGym

github2026-02-10 更新2026-02-11 收录

下载链接：

https://github.com/AGI-Eval-Official/amemgym

下载链接

链接失效反馈

官方服务：

资源简介：

AMemGym是首个用于基于LLM的助手在长程对话中进行交互式、策略上评估的框架。不同于依赖预生成对话的传统静态基准，AMemGym通过让助手生成自己的响应并从环境反馈中学习，实现了现实评估——弥合了评估与实际部署之间的差距。

AMemGym is the first framework for interactive and strategic evaluation of LLM-based assistants in long-context conversations. Unlike traditional static benchmarks that rely on pre-generated dialogues, AMemGym enables assistants to generate their own responses and learn from environmental feedback to deliver realistic evaluation, bridging the gap between evaluation and real-world deployment.

创建时间：

2026-01-12

原始信息汇总

AMemGym 数据集概述

数据集基本信息

数据集名称: AMemGym
核心定位: 首个用于长程对话中助手记忆能力的交互式、在线策略评估框架。
主要目标: 评估基于大语言模型的助手在长程对话中的记忆能力，弥合评估与实际部署之间的差距。
论文标题: AMemGym: Interactive Memory Benchmarking for Assistants in Long-horizon Conversations
论文链接: https://openreview.net/forum?id=sfrVLzsmlf
数据集托管地址: https://huggingface.co/datasets/AGI-Eval/AMemGym
项目代码库: https://github.com/AGI-Eval-Official/amemgym
许可证: MIT

核心特性

真实评估: 助手与模拟用户进行主动对话，用户会根据助手的回答进行适应性反馈。
细粒度诊断: 精确定位在记忆的写入、读取和利用操作中的失败点。
优化反馈: 通过环境反馈实现自主代理的自我进化。
完全自动化: 可扩展地生成多样化、高质量的场景，支持128K至512K+的上下文长度。

数据集内容与结构

环境数据: 提供与论文对齐的 v1.base 数据集。
用户画像来源: 环境数据生成使用了来自 Nemotron-Personas 数据集的用户画像，具体文件为 data/personas/nemotron.parquet。
数据生成: 可通过配置文件 configs/env/v1.base.json 自定义生成环境数据。

评估框架与代理类型

主要评估模式

在线策略评估: 助手生成自己的回答并从环境反馈中学习。
上界基线评估: 用于计算归一化记忆分数。
随机基线评估: 用于计算归一化记忆分数。
细粒度诊断评估: 可选，用于深入分析特定代理配置的记忆操作问题。

支持的代理类型

代理类型	描述	示例配置文件
AWI	上下文内智能写入	`configs/agent/awi.json`
AWE	外部智能写入	`configs/agent/awe-2-4-30.json`
RAG	检索增强生成	`configs/agent/rag-2-4-30.json`
Native	原生大语言模型（无记忆系统）	`configs/agent/native.json`

自我进化实验配置

用于论文中的自我进化实验，支持以下配置：

配置	描述	示例配置文件
No Evolution	无提示进化的基线	`configs/agent/awi-evolve/no-evolution.json`
Question Only	仅使用问题反馈进行进化	`configs/agent/awi-evolve/question-only.json`
Complete	使用完整反馈进行进化	`configs/agent/awi-evolve/complete.json`

引用格式

bibtex @inproceedings{ jiayang2026amemgym, title={{AM}emGym: Interactive Memory Benchmarking for Assistants in Long-Horizon Conversations}, author={Cheng Jiayang and Dongyu Ru and Lin Qiu and Yiyang Li and Xuezhi Cao and Yangqiu Song and Xunliang Cai}, booktitle={The Fourteenth International Conference on Learning Representations}, year={2026}, url={https://openreview.net/forum?id=sfrVLzsmlf} }

搜集汇总

数据集介绍

构建方式

在长程对话智能体评估领域，AMemGym的构建采用了创新的交互式策略评估框架。该数据集通过模拟真实用户与助手之间的动态对话过程生成，摒弃了传统静态基准依赖预生成对话的局限。构建过程中，系统首先利用Nemotron-Personas等来源的用户画像数据生成多样化的对话场景，覆盖12.8万至51.2万以上的上下文长度。随后，通过自动化流程创建包含环境反馈的交互序列，使助手能够基于自身生成的响应获得学习信号，从而实现对记忆操作中写入、读取与利用环节的细粒度数据采集。

特点

AMemGym的核心特征在于其高度仿真的交互评估机制与多维诊断能力。作为首个支持在线策略评估的对话记忆基准，它允许智能体在自适应环境中主动参与对话，模拟真实部署场景中的动态交互。数据集提供对记忆失败模式的精细诊断，能够准确识别写入、读取及利用等环节的缺陷。同时，框架内置的环境反馈机制为智能体的自主进化提供了可能，支持基于反馈的提示词优化实验。该数据集完全自动化生成，具备强大的可扩展性，能够产生涵盖广泛上下文长度的高质量对话场景。

使用方法

使用AMemGym进行评估时，研究人员需首先准备环境数据，可直接采用官方发布的基准数据集或根据配置自定义生成。通过执行整体评估脚本，并指定智能体配置文件，即可对不同类型的助手进行测试，包括智能体上下文写入、外部写入、检索增强生成及原生大语言模型等多种架构。框架支持运行上界与随机基线评估以获取归一化记忆分数，并可选择执行细粒度诊断分析以探究具体失败原因。对于进化实验，用户可通过配置不同的反馈模式，研究智能体在交互过程中的自我优化能力，从而推动对话记忆系统的迭代发展。

背景与挑战

背景概述

在人工智能助手与长程对话交互的研究领域，传统静态评估方法常受限于预生成对话的固有模式，难以真实反映智能体在动态环境中的记忆与响应能力。AMemGym数据集由AGI-Eval团队于2026年创建，作为首个交互式、在线策略评估框架，旨在系统性地评测基于大语言模型的助手在长程对话中的记忆性能。该数据集通过模拟用户与助手之间的实时互动，允许助手自主生成回应并依据环境反馈进行学习，从而弥合了实验室评估与实际部署之间的鸿沟。其核心研究问题聚焦于对话记忆的写入、读取与利用机制，为构建具备长期记忆与情境理解能力的智能助手提供了关键基准，推动了对话系统向更自然、更连贯的交互体验演进。

当前挑战

AMemGym数据集致力于解决长程对话中助手记忆能力的评估难题，其首要挑战在于如何设计真实且可扩展的交互环境，以模拟人类对话的复杂性与动态性。传统静态数据集无法捕捉助手在连续互动中的记忆衰减与错误累积，而AMemGym需构建能够自适应助手回应的模拟用户，并生成涵盖12.8万至51.2万以上上下文长度的多样化场景，这对情境生成的质量与一致性提出了极高要求。在构建过程中，团队面临如何自动化生成高质量对话数据、确保评估指标能精准诊断记忆操作的具体故障点，以及设计有效的反馈机制以驱动智能体自主进化等多重技术挑战，这些因素共同构成了该数据集在方法论与工程实现上的核心难点。

常用场景

经典使用场景

在人工智能助手的长程对话能力评估领域，AMemGym数据集通过其交互式、策略内评估框架，为研究者提供了一个经典的测试平台。该数据集模拟真实用户与助手之间的多轮对话，允许助手自主生成回应并接收环境反馈，从而在动态交互中检验其记忆系统的有效性。这种设计特别适用于评估大型语言模型在长达128K至512K以上上下文窗口中的记忆读写与利用能力，为对话系统的长期记忆研究树立了新的基准。

实际应用

在实际应用层面，AMemGym数据集可广泛应用于智能客服、个性化虚拟助手及教育辅导等场景。通过模拟多样化用户角色与复杂对话流程，该数据集帮助开发者训练和优化助手的长时记忆能力，确保其在连续交互中保持上下文一致性与个性化响应。这种评估框架的自动化与可扩展性，使得企业能够高效测试并提升对话系统的实用性与可靠性，促进智能助手在真实环境中的稳健部署。

衍生相关工作

围绕AMemGym数据集，已衍生出多项经典研究工作，包括基于代理写入上下文（AWI）、代理写入外部存储（AWE）以及检索增强生成（RAG）等记忆架构的对比分析。这些工作深入探讨了不同记忆策略在长程对话中的性能差异，并进一步推动了智能体的自我进化实验，通过环境反馈实现提示工程的自动化优化。相关成果为对话系统的记忆模块设计提供了实证基础，启发了后续在交互式评估与自适应学习方向上的创新探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集