MEMORYARENA

Name: MEMORYARENA
Creator: 斯坦福大学; 加州大学圣地亚哥分校; 伊利诺伊大学厄巴纳-香槟分校; 普林斯顿大学; 匹兹堡大学; 2077AI
Published: 2026-02-18 17:49:14
License: 暂无描述

arXiv2026-02-18 更新2026-02-20 收录

下载链接：

https://memoryarena.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

MEMORYARENA是由斯坦福大学领衔的多机构团队构建的智能体记忆评估基准，包含766条人工设计的跨会话任务，平均任务步长57步，生成超过40K tokens的推理轨迹。数据集通过商品兼容性聚类和数学物理问题构造，模拟真实场景中智能体需长期记忆并复用早期信息的需求。其核心价值在于填补现有评估对记忆-行动耦合能力的空白，适用于验证智能体在渐进式搜索、形式化推理等复杂场景中的记忆效用。

MEMORYARENA is an agent memory evaluation benchmark developed by a multi-institution team led by Stanford University. It includes 766 manually designed cross-session tasks, with an average task length of 57 steps and producing reasoning traces exceeding 40K tokens. Constructed via product compatibility clustering and mathematical physics problems, the dataset simulates real-world scenarios where agents need to utilize long-term memory to reuse early-stage information. Its core value lies in filling the gap in existing evaluations regarding memory-action coupling capabilities, and it is applicable to verifying the memory utility of agents in complex scenarios such as progressive search and formal reasoning.

提供机构：

斯坦福大学; 加州大学圣地亚哥分校; 伊利诺伊大学厄巴纳-香槟分校; 普林斯顿大学; 匹兹堡大学; 2077AI

创建时间：

2026-02-18

搜集汇总

数据集介绍

构建方式

在智能体记忆评估领域，现有基准往往将记忆与行动割裂考察。MEMORYARENA的构建旨在弥合这一鸿沟，其设计核心在于模拟真实场景中记忆与行动的紧密耦合。该数据集通过人工精心构建多会话、子任务相互依赖的智能体任务，涵盖网页导航、偏好约束规划、渐进信息搜索及序列形式推理四大领域。每个任务均包含因果关联的子任务链，智能体必须在早期会话中从环境反馈中提炼经验并存入记忆，随后依赖这些记忆指导后续行动以完成整体目标。数据构建过程融合了严格的筛选与标注流程，例如在捆绑网页购物任务中，基于产品类别层次与特征兼容性构建任务链，并通过人工验证确保逻辑一致性；在形式推理任务中，由领域专家从学术论文中提取具有严格因果结构的推导链，确保任务的高质量与挑战性。

特点

MEMORYARENA的突出特点在于其首次实现了对智能体记忆在记忆-智能体-环境循环中的功能性评估。与仅测试静态回忆或单会话行动的现有基准不同，该数据集强制要求智能体在多会话任务中持续维护并利用记忆，以解决具有深层因果依赖的子任务。其任务设计平均包含57个行动步骤，生成超过4万标记的推理轨迹，对智能体的长时程记忆与决策整合能力提出了严峻考验。此外，数据集支持对多种记忆范式（如长上下文缓冲、外部记忆系统、检索增强生成）的统一评估，并揭示了当前在传统记忆基准上表现优异的智能体在该设定下成功率显著下降，凸显出现有评估与真实智能体记忆需求之间的差距。

使用方法

使用MEMORYARENA进行评估时，研究者首先需为智能体装备一个持久记忆系统，该系统在每次评估开始时初始化为空。在每个子任务会话中，智能体基于当前任务指令与历史交互检索相关记忆，并依据记忆条件化的策略选择行动；会话完成后，记忆系统将当前交互轨迹更新入库，供后续会话使用。这一记忆-智能体-环境循环严格模拟了部分可观测马尔可夫决策过程，其中记忆系统充当了显式的信念状态估计机制。评估指标包括任务成功率与任务进展分数，后者衡量智能体在任务中正确完成的子任务比例，从而提供细粒度的部分进展信号。通过在该基准上测试不同记忆架构的智能体，研究者能够系统分析记忆在长时程、多会话智能体任务中的实际效用与瓶颈。

背景与挑战

背景概述

随着大语言模型智能体在复杂交互任务中的广泛应用，其长期记忆能力成为评估其实际效能的关键维度。传统评估方法往往将记忆与行动割裂，要么侧重于静态信息的回忆测试，要么局限于单次会话的任务执行，难以反映真实场景中记忆与决策的紧密耦合。为填补这一空白，由斯坦福大学、加州大学圣地亚哥分校等机构的研究团队于2026年共同提出了MEMORYARENA数据集。该数据集旨在通过多会话、子任务相互依赖的智能体任务，系统评估智能体在记忆-智能体-环境循环中的记忆效用，核心研究问题聚焦于智能体如何跨会话积累、提炼并利用经验知识以指导后续行动。MEMORYARENA覆盖网页导航、偏好约束规划、渐进信息搜索及序列形式推理四大领域，其构建标志着智能体记忆评估从孤立能力测试向功能化、场景化评估的重要转变，对推动具身智能与长期交互系统的研究具有深远影响。

当前挑战

MEMORYARENA所应对的核心领域挑战在于如何准确评估智能体在长期、多步骤交互任务中记忆系统的功能有效性，即记忆能否真正支撑跨会话的决策与规划。具体而言，现有记忆评估基准如LoCoMo虽擅长测量事实回忆，但缺乏动态环境与行动依赖的反馈，导致智能体在静态测试中表现饱和，却无法在需要记忆引导未来行动的智能体场景中取得良好效果。在数据集构建过程中，研究团队面临多重挑战：一是设计具有显式子任务依赖关系的复杂任务链，确保后期行动的成功必须准确追溯并应用前期会话中获取的隐性约束与中间结果；二是在不同领域（如捆绑购物、群体旅行规划）中人工构建高质量、逻辑自洽的评估实例，需通过精细的兼容性映射、约束链验证及专家标注来保证任务的唯一解与评估严谨性；三是平衡任务的复杂性与可扩展性，在维持长视野交互（平均57个行动步骤）的同时，避免因上下文过长或噪声累积而导致评估失真。

常用场景

经典使用场景

在智能体与记忆系统研究领域，MEMORYARENA数据集被广泛应用于评估智能体在跨会话、子任务相互依赖的复杂场景中的长期记忆与决策能力。该数据集通过构建捆绑式网络购物、群体旅行规划、渐进式网络搜索以及序列化形式推理四大任务环境，模拟了现实世界中智能体必须从早期交互中提炼经验、存储至记忆系统，并利用这些记忆指导后续行动以完成整体任务的经典循环。研究者通常借助这一基准，系统性地测试不同记忆架构（如长上下文缓冲、外部记忆系统或检索增强生成系统）在维持任务状态、处理隐式约束方面的效能，从而揭示当前记忆机制在支持多会话智能体执行方面的局限与潜力。

解决学术问题

MEMORYARENA数据集主要致力于解决智能体研究中记忆评估与行为决策脱节的核心学术问题。传统基准往往孤立地测试记忆的静态回忆能力或单会话内的行动效能，未能捕捉记忆在跨会话任务中如何动态地获取、整合并指导未来决策这一关键环节。该数据集通过设计具有显式子任务依赖关系的多会话任务，迫使智能体必须在记忆-智能体-环境循环中实现经验的持续积累与复用，从而填补了现有评估在衡量记忆功能性效用方面的空白。其意义在于推动了智能体记忆研究从简单的信息召回向支持长期、连贯的智能体行为的范式转变，为开发更鲁棒、更实用的记忆增强型智能体提供了严谨的评估基础。

衍生相关工作

MEMORYARENA数据集的提出，激发并串联了一系列围绕智能体长期记忆与跨会话任务执行的研究工作。它与此前专注于长上下文记忆召回评估的基准（如LoCoMo、LongMemEval）形成了鲜明对比，也与侧重单会话内行动能力的基准（如WebArena、SWE-bench）构成了互补。受其启发，后续研究开始更深入地探索记忆机制与任务执行的协同优化，例如，旨在测试智能体在静态长工具调用轨迹中事实检索能力的Mem2ActBench与MemTrack，以及尝试将记忆纳入智能体整体能力评估的AgencyBench。这些工作共同拓展了智能体记忆评估的维度，从不同侧面回应了MEMORYARENA所揭示的挑战——即如何使记忆系统不仅能存储信息，更能有效地支撑智能体在具有因果依赖关系的任务序列中完成端到端的决策与执行。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集