AMEMGYM
收藏arXiv2026-03-02 更新2026-03-04 收录
下载链接:
https://agi-eval-official.github.io/amemgym/
下载链接
链接失效反馈官方服务:
资源简介:
AMEMGYM是由香港科技大学和美团联合开发的交互式内存基准测试数据集,旨在评估和优化长程对话中基于大语言模型的助手记忆能力。该数据集包含10万条用户画像,通过结构化数据采样预定义用户画像、状态依赖问题和状态演化轨迹,利用LLM模拟用户自然对话以暴露潜在状态。数据集采用模式化方法生成高质量交互数据,支持个性化响应生成和自动评估,适用于对话代理的记忆能力评估、优化及策略自进化研究。
AMEMGYM is an interactive memory benchmark dataset jointly developed by The Hong Kong University of Science and Technology and Meituan. It is intended to evaluate and optimize the memory capabilities of large language model (LLM)-based assistants during long-duration conversations. This dataset contains 100,000 user profiles, which are generated by sampling predefined user profiles, state-dependent questions, and state evolution trajectories via structured data approaches, and leverages LLMs to simulate natural user conversations for uncovering latent states. It adopts a schema-guided method to produce high-quality interactive data, supports personalized response generation and automatic evaluation, and is suitable for research on memory capability evaluation, optimization, and policy self-evolution of conversational agents.
提供机构:
香港科技大学; 美团
创建时间:
2026-03-02
搜集汇总
数据集介绍
构建方式
在长程对话记忆评估领域,传统静态基准难以捕捉交互动态,AMEMGYM通过结构化数据采样与模拟交互相结合的方式构建了创新的评估环境。该框架首先基于预定义的用户画像、状态相关问题和状态演化轨迹生成结构化蓝图,确保评估目标与高质量交互的对齐;随后利用大型语言模型模拟用户,通过角色扮演在自由对话中自然暴露潜在状态,同时维持与结构化状态演化的一致性。这种将自由形式对话锚定于结构化状态演进的方法,实现了可控、可扩展的在线策略交互生成,为记忆系统的评估与优化提供了可靠基础。
使用方法
使用AMEMGYM进行评估时,研究者首先将目标助手模型接入交互环境,与模拟用户进行多轮对话。在对话过程中,助手需要持续跟踪用户状态演化,并在每个交互周期结束后回答预设的评估问题。评估体系包含整体性能指标与诊断性指标:整体性能通过问答准确率衡量,反映模型整合个性化与记忆能力的效果;诊断性指标则分析记忆处理各阶段的失败原因,帮助识别写入、读取或利用环节的缺陷。该环境支持对多种记忆实现方式的比较,包括原生大语言模型、检索增强生成及智能体记忆系统,并可进一步用于驱动记忆策略的自主进化研究。
背景与挑战
背景概述
AMEMGYM是由香港科技大学与美团团队于2026年提出的交互式记忆评测基准,旨在解决基于大语言模型的智能助手在长程对话中的记忆管理问题。该数据集通过结构化数据采样与LLM模拟用户相结合,构建了一个支持在线策略评估与优化的交互环境,能够生成高质量、对齐评测目标的对话交互。其核心研究问题聚焦于如何可靠地评估和优化对话助手的记忆能力,以推动个性化与长程交互技术的发展,为相关领域提供了可扩展且诊断性强的评测框架。
当前挑战
AMEMGYM面临的挑战主要集中于两个方面:在领域问题层面,传统静态离线策略评测无法捕捉助手真实交互行为,导致评估偏差与优化误导,而长程对话中信息的高效压缩、检索与利用亦构成显著挑战;在构建过程层面,需在开放对话环境中设计能够动态披露信息、保持对话自然连贯的模拟用户,并确保生成数据的多样性、高质量与可控性,以支撑可靠评估。
常用场景
经典使用场景
在长程对话智能助手的研究领域,AMEMGYM数据集被广泛用于评估和优化基于大语言模型的助手在记忆管理方面的性能。该数据集通过模拟用户与助手之间的交互,构建了一个动态的、策略性的评估环境,使得研究者能够测试助手在长期对话中如何有效跟踪、存储和利用用户状态信息。其经典使用场景包括对现有记忆系统(如检索增强生成、长上下文模型和代理记忆)进行基准测试,揭示这些系统在个性化服务中的表现差异与局限性。
解决学术问题
AMEMGYM数据集主要解决了长程对话中记忆评估的可靠性与可扩展性问题。传统基准依赖静态、非策略性数据,无法准确反映助手在实际交互中的记忆动态,导致评估偏差和优化误导。该数据集通过结构化数据采样和基于大语言模型的用户模拟,实现了策略性评估,能够精确诊断记忆操作在写入、读取和利用阶段的失败原因。其意义在于为记忆系统的性能比较提供了标准化、可复现的测试框架,推动了对话智能体在长期个性化交互方面的技术进步。
实际应用
在实际应用中,AMEMGYM数据集为开发具备长期记忆能力的智能助手提供了关键的训练与评估工具。例如,在个性化推荐、客户服务、健康管理等场景中,助手需要持续跟踪用户偏好、习惯和状态变化。通过该数据集,开发者可以测试不同记忆架构在真实交互环境下的表现,优化记忆更新频率、检索策略等参数,从而提升助手在实际部署中的准确性和用户体验。其自动化、可配置的特性也降低了大规模测试的成本,促进了记忆驱动型助手的产品化进程。
数据集最近研究
最新研究方向
在长程对话智能助手领域,AMEMGYM数据集的推出标志着记忆评估范式的重大革新。该数据集通过构建基于结构化状态演化的交互式环境,实现了对记忆系统的在线策略评估与优化,突破了传统静态离线数据评估的局限性。其核心研究方向聚焦于利用大语言模型模拟用户,在自由形式对话中自然暴露潜在状态,并结合诊断性指标系统分析记忆写入、读取与利用环节的失效模式。这一框架不仅为RAG、长上下文大语言模型及智能体记忆等主流技术提供了可靠的性能对比平台,还揭示了记忆更新频率、短期记忆长度等关键参数对系统表现的复杂影响。更为前沿的是,AMEMGYM展示了记忆智能体通过环境反馈实现策略自主演化的潜力,为构建具备持续学习能力的个性化对话系统开辟了新路径。该数据集通过可配置的难度参数与全自动化流程,为长程对话记忆能力的标准化测评与迭代优化奠定了坚实基础。
相关研究论文
- 1AMemGym: Interactive Memory Benchmarking for Assistants in Long-Horizon Conversations香港科技大学; 美团 · 2026年
以上内容由遇见数据集搜集并总结生成



