EMemBench

Name: EMemBench
Creator: 南洋理工大学; 复旦大学; 上海人工智能实验室
Published: 2026-01-23 20:09:59
License: 暂无描述

arXiv2026-01-23 更新2026-01-27 收录

下载链接：

https://github.com/InternLM/EMemBench

下载链接

链接失效反馈

官方服务：

资源简介：

EMemBench是由南洋理工大学、复旦大学和上海人工智能实验室联合开发的交互式基准测试框架，旨在评估智能体在文本和视觉游戏环境中的长期记忆能力。该数据集通过程序化生成问题，覆盖单跳/多跳回忆、归纳、时空推理等七类记忆技能，并利用游戏底层信号自动计算可验证的答案真值。其核心创新在于将智能体的交互轨迹转化为个性化评估实例，支持多模态环境下的可扩展、自动化测试。该基准主要应用于增强语言模型和视觉语言模型的动态记忆能力研究，为解决智能体在开放环境中持续学习与决策的挑战提供标准化评估工具。

提供机构：

南洋理工大学; 复旦大学; 上海人工智能实验室

创建时间：

2026-01-23

原始信息汇总

EMemBench 数据集概述

数据集基本信息

数据集名称：EMemBench: Interactive Benchmarking of Episodic Memory for VLM Agents
核心性质：一个用于评估交互式智能体中情景（基于经验的）记忆的程序化基准框架。
关键特征：该框架并非一个固定的静态数据集，而是一个基准生成器 + 评估工具。其工作流程为：运行智能体 → 记录交互轨迹 → 基于程序化生成的真实答案生成问答对 → 回答并评分。

核心方法与设计

轨迹条件化问答生成：问题来源于智能体自身的交互轨迹。
程序化、可验证的真实答案：答案根据游戏信号/结构化日志计算得出。
查询范围控制：模板可以选择性地将证据选择和答案计算限制在前缀窗口内，以减少因可变轨迹长度带来的混淆。

支持的环境与内容

文本环境：Jericho（纯文本互动小说）。
视觉环境：Crafter（视觉、部分可观察的生存与制作游戏）。

数据集结构与输出

文本游戏（Jericho）

游戏环境：text_game/game_envs/（需自行放置ROM文件）。
日志：logs/<game>/..._logs.jsonl
生成的问答对：generated_qa/<game>/<run_name>/DIF_*/（DIF_-1、DIF_50等文件夹对应不同的查询范围控制设置）。
评估结果：eval/<game>/<run_name>/...

视觉游戏（Crafter）

日志：log/seed{SEED}/{RUN_NAME}/（包含logs.jsonl、地图文件和帧图像）。
生成的问答对：generated_qa/seed{SEED}/{RUN_NAME}/（包含qa_context.json和DIF_*/qa.jsonl）。
评估结果：eval/seed{SEED}/{RUN_NAME}/...

使用与许可

主要用途：研究使用。
代码许可：Apache 2.0。
数据许可：CC BY-NC 4.0。
使用要求：应遵守OpenAI的使用条款政策（https://openai.com/policies/terms-of-use）。

引用信息

论文标题：EMemBench: Interactive Benchmarking of Episodic Memory for VLM Agents
作者：Xinze Li, Ziyue Zhu, Siyuan Liu, Yubo Ma, Yuhang Zang, Yixin Cao, Aixin Sun
年份：2026
arXiv：https://arxiv.org/abs/2601.16690

上游依赖环境

Jericho：https://github.com/microsoft/jericho
Crafter：https://github.com/danijar/crafter

搜集汇总

数据集介绍

构建方式

在交互式智能体评估领域，EMemBench采用了一种创新的程序化基准生成范式。该数据集并非静态的问答集合，而是通过智能体在文本或视觉游戏环境中的自主交互轨迹动态构建。具体而言，智能体首先在Jericho文本游戏或Crafter视觉生存游戏中完成一个交互片段，生成包含观察、动作与奖励的轨迹日志。随后，一个预设的模板库基于该轨迹及底层游戏状态信号，通过确定性算法生成涵盖单跳/多跳回忆、归纳、时空、逻辑及对抗性推理等七类记忆能力的问答对。每个问题的答案均从游戏内部信号中可验证地计算得出，确保了评估的准确性与可复现性。

使用方法

使用EMemBench进行测评遵循标准化的三步流程。首先，待评估的智能体在指定的游戏环境中进行交互，生成其独有的轨迹日志。随后，基准生成器依据该轨迹自动产生一套平衡的问答集，并计算出可验证的参考答案。最后，同一智能体在仅能访问其自身记忆（或有限上下文）的条件下回答这些问题。评估者通过比较智能体的预测答案与程序计算出的真实答案，即可量化其在各类记忆技能上的表现。该框架支持对纯文本模型与视觉语言模型进行统一测评，并为比较不同记忆增强模块（如持久化记忆系统）的性能提供了可靠平台。

背景与挑战

背景概述

随着大型语言模型在交互式智能体中的广泛应用，对长期记忆能力的需求日益凸显。传统评估方法多基于静态对话历史，难以捕捉智能体在动态环境中形成与利用个性化经验记忆的核心能力。为此，南洋理工大学、复旦大学及上海人工智能实验室的研究团队于2026年提出了EMemBench，一个基于程序化生成的交互式基准测试框架。该框架通过文本与视觉游戏环境，从智能体自身交互轨迹中自动生成可验证的问题，旨在系统评估情景记忆的多种推理技能，包括单跳/多跳回忆、归纳、时空、逻辑及对抗性推理，为记忆增强型智能体的发展提供了重要的诊断工具。

当前挑战

EMemBench所解决的核心领域问题是智能体情景记忆的评估，其挑战在于如何准确衡量智能体在动态交互中对自身经验的记忆形成、存储与利用能力，而非仅对固定历史进行问答。构建过程中的主要挑战包括：确保评估的个性化与公平性，即不同轨迹生成的问题实例需保持可比性；实现全自动、可扩展且答案可验证的生成流程；以及在视觉环境中处理部分可观测性带来的空间推理与归纳瓶颈，这些因素共同构成了对现有记忆模型的严峻考验。

常用场景

经典使用场景

在具身智能与交互式代理的研究领域，EMemBench以其独特的程序化基准生成机制，为评估智能体的长时记忆能力提供了经典范式。该数据集通过文本与视觉游戏环境，模拟代理在动态交互中形成个性化经验轨迹，并据此生成覆盖单跳/多跳回忆、归纳推理、时空逻辑及对抗性测试的多样化问题。研究者通常利用这一框架，系统评估不同记忆增强模块（如Mem0、LangMem、A-MEM）在复杂环境下的记忆编码、存储与检索效能，尤其关注视觉场景中空间推理与归纳能力的瓶颈突破。

解决学术问题

EMemBench有效解决了传统记忆评估中静态问答与交互脱节的学术难题。以往基准多依赖固定历史记录进行问答测试，忽视了记忆在动态环境中的形成与更新过程。该数据集通过轨迹依赖的问答生成，将认知心理学中的情景记忆理论转化为可计算评估框架，使研究者能够精确量化代理对自身经验的结构化记录能力。其意义在于推动了记忆评估从被动检索向主动交互的范式转变，为理解智能体在开放环境中的长期决策连贯性提供了可靠度量工具。

实际应用

在实际应用层面，EMemBench为开发具备长期记忆能力的智能代理系统提供了关键验证平台。其在游戏化环境中的评估机制，可直接迁移至虚拟助手、自主机器人等需要持续环境交互的领域。例如，在开放世界游戏智能体训练中，该基准可测试代理对地图探索、资源分布等空间信息的记忆保持度；在具身视觉导航任务中，其视觉问答模板能评估代理对历史观测画面的时空绑定能力。这些测试为构建能在动态环境中积累经验、优化长期策略的实用化智能系统奠定了评估基础。

数据集最近研究