MemoryAgentBench
收藏arXiv2025-07-08 更新2025-08-15 收录
下载链接:
https://huggingface.co/datasets/ai-hyz/MemoryAgentBench
下载链接
链接失效反馈官方服务:
资源简介:
MemoryAgentBench是一个专为评估记忆代理设计的基准数据集,旨在测试代理在准确检索、测试时学习、长程理解和冲突解决这四个核心记忆能力。该数据集结合了现有的数据集和新构建的数据集,为评估记忆质量提供了一个系统和具有挑战性的测试平台。MemoryAgentBench的数据集包括对现有记忆代理的评估,这些代理包括基于简单上下文和检索增强生成(RAG)系统的代理,以及具有外部内存模块和工具集成的先进代理。实验结果表明,现有方法在掌握所有四个能力方面仍存在不足,这突出了对LLM代理进行更全面记忆机制研究的必要性。
MemoryAgentBench is a benchmark dataset specifically designed for evaluating memory agents, which aims to assess agents' four core memory capabilities: accurate retrieval, test-time learning, long-range understanding, and conflict resolution. This dataset combines existing datasets and newly constructed ones, providing a systematic and challenging testbed for evaluating memory quality. The MemoryAgentBench dataset includes evaluations of existing memory agents, ranging from agents based on simple context and Retrieval-Augmented Generation (RAG) systems to advanced agents equipped with external memory modules and tool integrations. Experimental results demonstrate that existing methods still fall short of mastering all four capabilities, which underscores the necessity of conducting more comprehensive research on memory mechanisms for LLM agents.
提供机构:
加州大学圣地亚哥分校
创建时间:
2025-07-08
搜集汇总
数据集介绍

构建方式
MemoryAgentBench的构建采用了多源数据集整合与创新的方法,通过重构现有长上下文评估数据集(如RULER、∞Bench)并注入增量式会话分割机制,解决了传统静态长文本评估与动态记忆代理需求间的割裂问题。研究团队特别设计了EventQA(事件推理问答)和FactConsolidation(事实冲突消解)两个新数据集,采用书籍叙事重构和反事实编辑对技术,分别针对精确检索与冲突解决能力。所有数据均通过GPT-4o-mini分词器标准化处理,平均上下文长度达30万token,并通过会话块序列化(chunk size 512/4096)模拟真实交互场景下的渐进式记忆积累过程。
特点
该数据集的核心特征体现在四维能力评估框架:1)精确检索任务包含多跳NIAH式查询和时序事件推理,测试代理在超长对话(最高534K token)中定位分散信息的能力;2)即时学习模块通过分类任务流(如BANKING77意图识别)验证代理的在线知识吸收效率;3)长程理解采用整书摘要任务(∞Bench-Sum),要求代理构建全局叙事认知;4)冲突解决首创多跳反事实推理(FactConsolidation-MH),评估记忆更新机制的鲁棒性。数据集特别强调增量式评估范式,85%的任务设计为单上下文多轮问答,显著提升评估效率。
使用方法
使用该数据集需遵循标准化评估协议:1)记忆构建阶段采用分块注入策略,每块附带记忆指令(如“Memorize this conversation history”);2)查询阶段根据任务类型适配提示模板,如精确检索任务采用键值匹配格式,冲突解决任务要求显式标注事实版本号;3)评估指标差异化设计,精确检索采用子串匹配(SubEM),即时学习使用准确率,长程理解采用GPT-4o辅助的摘要连贯性评分。研究提供统一代码库支持三类代理(长上下文模型、RAG系统、商业记忆代理)的标准化测试,并包含计算延迟(如Mem0记忆构建耗时14,644秒)和top-k检索量等消融实验配置。
背景与挑战
背景概述
MemoryAgentBench是由加州大学圣地亚哥分校的研究团队于2025年提出的专门用于评估大型语言模型(LLM)智能体记忆能力的基准测试。该数据集针对现有评估体系在记忆机制方面的空白,系统性地定义了记忆智能体应具备的四大核心能力:精确检索、实时学习、长程理解和冲突解决。研究团队通过重构现有数据集和创建EventQA、FactConsolidation两个新数据集,构建了包含355K tokens超长对话历史的评估体系,为研究参数化记忆、向量记忆等不同记忆机制提供了标准化测试平台。
当前挑战
该数据集主要面临双重挑战:在领域问题层面,现有评估多聚焦静态长文本理解,难以捕捉增量式多轮交互中记忆的动态更新过程;在构建过程中,需解决长序列信息的分块注入、时序依赖保持等技术难题,特别是冲突解决任务要求智能体在262K tokens的上下文内识别并修正矛盾信息。此外,商业记忆系统如MemGPT在测试时学习任务中仅达31.8%准确率,暴露出当前记忆机制在知识整合方面的局限性。
常用场景
经典使用场景
MemoryAgentBench数据集在评估大型语言模型(LLM)代理的记忆能力方面具有经典的使用场景。该数据集通过多轮增量交互的方式,系统地测试代理在记忆、更新和检索长期信息方面的能力。具体而言,它模拟了真实世界中的对话场景,要求代理在连续的对话中逐步积累信息,并能够在后续的对话中准确回忆和应用这些信息。这种场景特别适用于需要长期记忆支持的对话系统,如客服机器人、个性化助手等。
解决学术问题
MemoryAgentBench解决了当前LLM代理研究中记忆能力评估不足的问题。传统的基准测试主要关注推理、规划和执行能力,而忽视了记忆机制的重要性。该数据集通过设计四个核心能力(准确检索、测试时学习、长距离理解和冲突解决),填补了这一研究空白。它不仅提供了全面的评估框架,还为研究者提供了量化记忆能力的方法,推动了记忆机制在LLM代理中的深入研究。
衍生相关工作
MemoryAgentBench的推出催生了一系列相关研究和工作。例如,基于该数据集的评估结果,研究者提出了改进的记忆机制,如HippoRAG-v2和NV-Embed-v2,这些方法在准确检索和长距离理解任务中表现优异。此外,该数据集还启发了对商业记忆代理(如MemGPT)的优化研究,推动了记忆代理在复杂场景中的应用。相关研究进一步探索了记忆压缩、冲突解决等前沿问题,为LLM代理的发展提供了重要参考。
以上内容由遇见数据集搜集并总结生成



