five

AMemGym

收藏
github2026-02-10 更新2026-02-11 收录
下载链接:
https://github.com/AGI-Eval-Official/amemgym
下载链接
链接失效反馈
官方服务:
资源简介:
AMemGym是首个用于基于LLM的助手在长程对话中进行交互式、策略上评估的框架。不同于依赖预生成对话的传统静态基准,AMemGym通过让助手生成自己的响应并从环境反馈中学习,实现了现实评估——弥合了评估与实际部署之间的差距。

AMemGym is the first framework for interactive and strategic evaluation of LLM-based assistants in long-context conversations. Unlike traditional static benchmarks that rely on pre-generated dialogues, AMemGym enables assistants to generate their own responses and learn from environmental feedback to deliver realistic evaluation, bridging the gap between evaluation and real-world deployment.
创建时间:
2026-01-12
原始信息汇总

AMemGym 数据集概述

数据集基本信息

  • 数据集名称: AMemGym
  • 核心定位: 首个用于长程对话中助手记忆能力的交互式、在线策略评估框架
  • 主要目标: 评估基于大语言模型的助手在长程对话中的记忆能力,弥合评估与实际部署之间的差距。
  • 论文标题: AMemGym: Interactive Memory Benchmarking for Assistants in Long-horizon Conversations
  • 论文链接: https://openreview.net/forum?id=sfrVLzsmlf
  • 数据集托管地址: https://huggingface.co/datasets/AGI-Eval/AMemGym
  • 项目代码库: https://github.com/AGI-Eval-Official/amemgym
  • 许可证: MIT

核心特性

  • 真实评估: 助手与模拟用户进行主动对话,用户会根据助手的回答进行适应性反馈。
  • 细粒度诊断: 精确定位在记忆的写入、读取和利用操作中的失败点。
  • 优化反馈: 通过环境反馈实现自主代理的自我进化。
  • 完全自动化: 可扩展地生成多样化、高质量的场景,支持128K至512K+的上下文长度。

数据集内容与结构

  • 环境数据: 提供与论文对齐的 v1.base 数据集。
  • 用户画像来源: 环境数据生成使用了来自 Nemotron-Personas 数据集的用户画像,具体文件为 data/personas/nemotron.parquet
  • 数据生成: 可通过配置文件 configs/env/v1.base.json 自定义生成环境数据。

评估框架与代理类型

主要评估模式

  1. 在线策略评估: 助手生成自己的回答并从环境反馈中学习。
  2. 上界基线评估: 用于计算归一化记忆分数。
  3. 随机基线评估: 用于计算归一化记忆分数。
  4. 细粒度诊断评估: 可选,用于深入分析特定代理配置的记忆操作问题。

支持的代理类型

代理类型 描述 示例配置文件
AWI 上下文内智能写入 configs/agent/awi.json
AWE 外部智能写入 configs/agent/awe-2-4-30.json
RAG 检索增强生成 configs/agent/rag-2-4-30.json
Native 原生大语言模型(无记忆系统) configs/agent/native.json

自我进化实验配置

用于论文中的自我进化实验,支持以下配置:

配置 描述 示例配置文件
No Evolution 无提示进化的基线 configs/agent/awi-evolve/no-evolution.json
Question Only 仅使用问题反馈进行进化 configs/agent/awi-evolve/question-only.json
Complete 使用完整反馈进行进化 configs/agent/awi-evolve/complete.json

引用格式

bibtex @inproceedings{ jiayang2026amemgym, title={{AM}emGym: Interactive Memory Benchmarking for Assistants in Long-Horizon Conversations}, author={Cheng Jiayang and Dongyu Ru and Lin Qiu and Yiyang Li and Xuezhi Cao and Yangqiu Song and Xunliang Cai}, booktitle={The Fourteenth International Conference on Learning Representations}, year={2026}, url={https://openreview.net/forum?id=sfrVLzsmlf} }

搜集汇总
数据集介绍
main_image_url
构建方式
在长程对话智能体评估领域,AMemGym的构建采用了创新的交互式策略评估框架。该数据集通过模拟真实用户与助手之间的动态对话过程生成,摒弃了传统静态基准依赖预生成对话的局限。构建过程中,系统首先利用Nemotron-Personas等来源的用户画像数据生成多样化的对话场景,覆盖12.8万至51.2万以上的上下文长度。随后,通过自动化流程创建包含环境反馈的交互序列,使助手能够基于自身生成的响应获得学习信号,从而实现对记忆操作中写入、读取与利用环节的细粒度数据采集。
特点
AMemGym的核心特征在于其高度仿真的交互评估机制与多维诊断能力。作为首个支持在线策略评估的对话记忆基准,它允许智能体在自适应环境中主动参与对话,模拟真实部署场景中的动态交互。数据集提供对记忆失败模式的精细诊断,能够准确识别写入、读取及利用等环节的缺陷。同时,框架内置的环境反馈机制为智能体的自主进化提供了可能,支持基于反馈的提示词优化实验。该数据集完全自动化生成,具备强大的可扩展性,能够产生涵盖广泛上下文长度的高质量对话场景。
使用方法
使用AMemGym进行评估时,研究人员需首先准备环境数据,可直接采用官方发布的基准数据集或根据配置自定义生成。通过执行整体评估脚本,并指定智能体配置文件,即可对不同类型的助手进行测试,包括智能体上下文写入、外部写入、检索增强生成及原生大语言模型等多种架构。框架支持运行上界与随机基线评估以获取归一化记忆分数,并可选择执行细粒度诊断分析以探究具体失败原因。对于进化实验,用户可通过配置不同的反馈模式,研究智能体在交互过程中的自我优化能力,从而推动对话记忆系统的迭代发展。
背景与挑战
背景概述
在人工智能助手与长程对话交互的研究领域,传统静态评估方法常受限于预生成对话的固有模式,难以真实反映智能体在动态环境中的记忆与响应能力。AMemGym数据集由AGI-Eval团队于2026年创建,作为首个交互式、在线策略评估框架,旨在系统性地评测基于大语言模型的助手在长程对话中的记忆性能。该数据集通过模拟用户与助手之间的实时互动,允许助手自主生成回应并依据环境反馈进行学习,从而弥合了实验室评估与实际部署之间的鸿沟。其核心研究问题聚焦于对话记忆的写入、读取与利用机制,为构建具备长期记忆与情境理解能力的智能助手提供了关键基准,推动了对话系统向更自然、更连贯的交互体验演进。
当前挑战
AMemGym数据集致力于解决长程对话中助手记忆能力的评估难题,其首要挑战在于如何设计真实且可扩展的交互环境,以模拟人类对话的复杂性与动态性。传统静态数据集无法捕捉助手在连续互动中的记忆衰减与错误累积,而AMemGym需构建能够自适应助手回应的模拟用户,并生成涵盖12.8万至51.2万以上上下文长度的多样化场景,这对情境生成的质量与一致性提出了极高要求。在构建过程中,团队面临如何自动化生成高质量对话数据、确保评估指标能精准诊断记忆操作的具体故障点,以及设计有效的反馈机制以驱动智能体自主进化等多重技术挑战,这些因素共同构成了该数据集在方法论与工程实现上的核心难点。
常用场景
经典使用场景
在人工智能助手的长程对话能力评估领域,AMemGym数据集通过其交互式、策略内评估框架,为研究者提供了一个经典的测试平台。该数据集模拟真实用户与助手之间的多轮对话,允许助手自主生成回应并接收环境反馈,从而在动态交互中检验其记忆系统的有效性。这种设计特别适用于评估大型语言模型在长达128K至512K以上上下文窗口中的记忆读写与利用能力,为对话系统的长期记忆研究树立了新的基准。
实际应用
在实际应用层面,AMemGym数据集可广泛应用于智能客服、个性化虚拟助手及教育辅导等场景。通过模拟多样化用户角色与复杂对话流程,该数据集帮助开发者训练和优化助手的长时记忆能力,确保其在连续交互中保持上下文一致性与个性化响应。这种评估框架的自动化与可扩展性,使得企业能够高效测试并提升对话系统的实用性与可靠性,促进智能助手在真实环境中的稳健部署。
衍生相关工作
围绕AMemGym数据集,已衍生出多项经典研究工作,包括基于代理写入上下文(AWI)、代理写入外部存储(AWE)以及检索增强生成(RAG)等记忆架构的对比分析。这些工作深入探讨了不同记忆策略在长程对话中的性能差异,并进一步推动了智能体的自我进化实验,通过环境反馈实现提示工程的自动化优化。相关成果为对话系统的记忆模块设计提供了实证基础,启发了后续在交互式评估与自适应学习方向上的创新探索。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作