ATM-Bench

github2026-03-18 更新2026-03-06 收录

下载链接：

https://github.com/JingbiaoMei/ATM-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

ATM-Bench是第一个用于长期（约4年）多模态、多源个性化参考记忆QA的基准数据集，具有基于证据的检索和回答功能。

ATM-Bench is the first benchmark dataset for long-term (approximately 4-year) multimodal, multi-source personalized reference memory QA, featuring evidence-based retrieval and answering capabilities.

创建时间：

2026-03-02

原始信息汇总

ATM-Bench 数据集概述

数据集基本信息

数据集名称：ATM-Bench
核心定位：首个用于多模态、多源个性化指代记忆问答的基准测试，专注于长时程（约4年）且要求证据支撑的检索与回答。
官方论文：According to Me: Long-Term Personalized Referential Memory QA
项目主页：https://atmbench.github.io/
许可证：MIT License

数据集核心特性

数据模态与来源：包含图像、视频、电子邮件等多模态、多来源数据。
时间跨度：覆盖约4年的个人记忆。
查询类型：专注于解析个性化指代查询（例如，“给我看看Grace试图偷偷摸摸的那些时刻...”）。
证据基础：问答对经过人工标注，并附有真实记忆证据作为标准答案。
推理复杂度：
- 支持需要从多个来源整合证据的查询。
- 包含需要处理矛盾信息的场景。

数据组织与处理框架

记忆预处理

比较两种预处理表示方法：

描述性记忆：每个记忆项表示为一个自然语言描述。
模式引导记忆：每个记忆项表示为遵循固定模式的、基于文本的键值对字段。模式字段具有模态感知能力，例如：
- 图像/视频记忆：包含time、location、entities、ocr、tags等字段。
- 电子邮件记忆：包含time、summary、body等字段。

记忆组织

比较两种记忆存储组织方式：

堆叠记忆：记忆项存储时没有显式的链接关系。
链接记忆：记忆项通过推断出的关系（图结构）进行链接；智能体系统还可以在组织过程中更新现有项目。

评估设置

端到端评估：评估检索与生成的联合性能。
NIAH评估：提供“大海捞针”式评估协议，用于隔离答案生成/推理质量与检索质量。每个问题与一个固定的证据池配对，该池包含所有真实证据项，其余部分则由真实的干扰项填充。

数据与代码状态

论文发布日期：2026年3月3日（arXiv: 2603.01990）。
代码库发布日期：2026年3月4日，包含MMRAG、Oracle、NIAH以及四个移植的第三方基线（A-Mem、HippoRAG2、mem0、MemoryOS）的实现。
数据发布状态：即将发布。
其他基线实现状态：针对OpenClaw、Codex和OpenCode的基准测试实现即将发布。

仓库结构

ATMBench/ ├── memqa/ # 核心记忆问答实现 ├── scripts/ # 实验脚本 ├── docs/ # 文档 ├── data/ # 数据目录（由用户提供） ├── third_party/ # 集成的第三方记忆系统 └── output/ # 实验输出（被Git忽略）

引用信息

如需在研究中引用ATM-Bench，请使用以下BibTeX条目： bibtex @article{mei2026atm, title={According to Me: Long-Term Personalized Referential Memory QA}, author={Mei, Jingbiao and Chen, Jinghong and Yang, Guangyu and Hou, Xinyu and Li, Margaret and Byrne, Bill}, journal={arXiv preprint arXiv:2603.01990}, year={2026}, url={https://arxiv.org/abs/2603.01990}, doi={10.48550/arXiv.2603.01990} }

搜集汇总

数据集介绍

构建方式

在个性化记忆问答领域，ATM-Bench通过整合多模态与多源数据构建了一个长期记忆基准。该数据集基于约四年的个人生活记录，涵盖图像、视频及电子邮件等多种形式，并采用人工标注方式生成问题-答案对，确保每个查询均与真实记忆证据相关联。构建过程涉及记忆预处理与组织两个核心环节：预处理阶段比较了描述性记忆与模式引导记忆两种表示方法，前者以自然语言描述呈现，后者则采用基于模式的键值字段结构化表示；组织阶段则区分了无链接的堆叠记忆与基于图结构的关系链接记忆，以模拟现实记忆的存储与检索机制。

特点

ATM-Bench作为首个面向长期个性化指代记忆问答的多模态基准，其显著特点在于融合了跨模态数据源与长时程记忆跨度。数据集不仅包含图像、视频等视觉信息与电子邮件文本，还设计了需多证据推理的复杂查询，并引入矛盾证据处理场景，以评估模型在真实记忆环境下的指代消解能力。此外，通过证据锚定的评估框架与NIAH协议，该基准能够有效隔离检索与生成环节的性能，为模型推理质量提供精准度量。这些特性共同支撑了对个性化记忆系统中指代性、多源性与时序一致性的深入研究。

使用方法

使用ATM-Bench时，研究者可通过代码库提供的安装脚本快速配置环境，并利用预置的基线模型进行实验验证。数据集支持端到端的检索与生成评估，同时允许通过NIAH协议在固定证据池中测试模型的纯推理性能。用户可根据需要选择描述性记忆或模式引导记忆的预处理方式，并灵活应用堆叠或链接记忆组织策略。实验流程兼容多种第三方记忆系统基线，且提供了详细的数据格式说明与可复现性指南，便于在个性化记忆建模、多模态推理及长期依赖处理等方向开展系统性评估。

背景与挑战

背景概述

在人工智能领域，长期记忆建模是构建具备个性化交互能力智能体的核心挑战之一。现有基准多聚焦于对话历史，难以捕捉基于真实生活经历的个性化指代关系。ATM-Bench由研究人员Jingbiao Mei等人于2026年提出，旨在填补这一空白。该数据集首次构建了面向多模态、多来源的个性化指代记忆问答基准，涵盖约四年的长期时间跨度，并通过证据检索机制增强答案的可解释性。其核心研究问题在于如何让智能体像人类一样，依据长期积累的多源生活记忆（如图像、视频、邮件）来理解和回应个性化的指代性查询，这对推动具身智能和个性化助手的发展具有重要影响力。

当前挑战

ATM-Bench所针对的个性化指代记忆问答任务本身面临多重挑战。指代性查询通常隐含且依赖特定个人经历，要求模型具备深层的上下文理解和跨模态关联能力。同时，长期记忆的规模与时间跨度引入了信息检索的复杂性，模型需从海量、异构的记忆片段中精准定位相关证据。在数据集构建过程中，挑战同样显著。如何从真实的多源数据（如图像、视频、邮件）中构建时间跨度长达四年的连贯个人记忆轨迹，并为之标注高质量、证据确凿的问答对，是一项耗费巨大人力的工程。此外，设计能够模拟现实矛盾信息的冲突证据，以及构建用于隔离评估检索与推理能力的NIAH评估框架，均对数据集的科学性与严谨性提出了极高要求。

常用场景

经典使用场景

在个性化人工智能与长期记忆建模领域，ATM-Bench数据集为评估多模态、多源个性化参照记忆问答系统提供了标准化的测试平台。其经典使用场景集中于模拟长达四年的个人生活记忆，涵盖图像、视频和电子邮件等多种模态数据，研究者通过该数据集能够系统性地考察智能体在复杂参照查询下的记忆检索与推理能力，例如解析“展示Grace试图偷偷摸摸的那些时刻”这类富含个人化指代的提问。

衍生相关工作

围绕ATM-Bench数据集，已衍生出一系列聚焦于记忆表示与检索机制的经典研究工作。例如，基于描述性记忆与模式引导记忆的预处理方法对比研究，探索了不同记忆表征对推理效率的影响；而针对堆积记忆与链接记忆的组织结构实验，则深入分析了记忆项间显式关联对复杂查询处理的增益。此外，诸如MMRAG、Oracle等基线模型，以及A-Mem、HippoRAG2等第三方记忆系统的适配与评估，进一步丰富了长期个性化记忆建模的技术图谱。

数据集最近研究