Memoria-Flash, Memoria-Bench-Flash-Corpus

github2026-05-20 更新2026-05-21 收录

下载链接：

https://github.com/zjxx/Memoria

下载链接

链接失效反馈

官方服务：

资源简介：

Memoria-Flash：用于评估长视野自主智能体设置中记忆能力的Flash问答数据集。Memoria-Bench-Flash-Corpus：用于内存数据评估的Flash版本伴随语料库。

Memoria-Flash: A Flash Q&A dataset for evaluating memory capabilities in long-horizon autonomous agent settings. Memoria-Bench-Flash-Corpus: The Flash-version accompanying corpus for memory data evaluation.

创建时间：

2026-05-20

原始信息汇总

Memoria-Bench 数据集详情

数据集概述

Memoria-Bench 是一个用于评估长时域自主智能体（Long-Horizon Autonomous Agents）记忆能力的综合性基准数据集，已被 ICML 2026 接收。该基准围绕三个主要领域构建：深度研究（deep research）、代码智能体（code agents） 和表格任务（tabular tasks），用于评估智能体在工作流程中的情节记忆（Episodic Memory）、语义记忆（Semantic Memory）和程序记忆（Procedural Memory）。

数据集构成

核心数据集

数据集名称	说明	链接
Memoria-Flash	用于评估智能体记忆能力的 Flash QA 数据集	https://huggingface.co/datasets/iMemory/Memoria-Bench-Flash
Memoria-Bench-Flash-Corpus	Flash 版本的辅助语料库，用于记忆数据评估	https://huggingface.co/datasets/iMemory/Memoria-Bench-Flash-Corpus

数据集划分

QA 数据集（Memoria-Flash）包含三个划分：
- code
- deepresearch
- science_dev
语料库数据集（Memoria-Bench-Flash-Corpus）包含两个划分：
- corpus
- longterm_context

评估场景

评估的记忆类型

长时记忆（Long-term Memory）：
- episodic_state_tracking（情节状态跟踪）
- semantic_state_tracking（语义状态跟踪）
- procedural_aggregation（程序聚合）
工作记忆（Working Memory）：
- episodic_multi_hop（情节多跳推理）
- semantic_state_tracking（语义状态跟踪）
- procedural_aggregation（程序聚合）

评估模式

Agent 模式：检索增强的智能体评估，使用 BM25 作为检索器
Long Context 模式：纯 API 评估，将完整上下文传递给被测试模型

评估输出

评估结果存储在以下目录结构中：

BM25 模式：
- outputs/<model>/<model>-bm25/
- eval_outputs/<model>/<model>-bm25/
- eval_summary/<model>_bm25_flash_code.csv
Long Context 模式：
- outputs/<model>/<model>-long_context/
- eval_outputs/<model>/<model>-long_context/
- eval_summary/<model>_long_context_flash_code.csv

关键技术特性

自动 Hugging Face 数据准备：自动读取 QA 数据集和辅助语料库，通过 context_mode + context_key 构建评估上下文
基于 API 的评估：直接评估兼容 OpenAI 的 API，无需本地推理服务
分离的裁判模型流水线：被测试模型和裁判模型可独立配置
长输入容错机制：
- Agent 模式：超长输入生成失败时记录为空输出并继续评估
- Long Context 模式：输入过长时自动截断至 1280000 字符，后续重试保留前 80%

环境要求

Python 版本：3.11+
关键依赖：litellm、google-genai（测试 Gemini 时需要）、NLTK（需要 punkt 和 punkt_tab 资源）

引用信息

bibtex @inproceedings{wang2026memoriabench, title={Memoria-Bench: A Comprehensive Benchmark for Evaluating Memory in Long-Horizon Autonomous Agents}, author={Qiufeng Wang and Jiaxuan Zhu and Ziteng Feng and Zhenyu Cui and Jialong Wu and Shuxia Lin and Caorui Li and Renzhao Liang and Yifei Yu and Kun Wang and Qiankun Li and Guibin Zhang and Siming Huang and Xianzhen Luo and Jie Wang and Junnan Dong and Siyu An and Biao Liu and Yidong Wang and Cunxiang Wang and Yu Chen and Zhenhong Zhou and Liang Lin and Zhongxiang Sun and Deng-Bao Wang and Xu Yang and Yang Liu and Min-Ling Zhang and di yin and Xing Sun and Jiaheng Liu and Qian-Wen Zhang}, booktitle={Proceedings of the 43rd International Conference on Machine Learning (ICML)}, year={2026}, }

搜集汇总

数据集介绍

构建方式

Memoria-Flash与Memoria-Bench-Flash-Corpus数据集由ICML 2026录用的Memoria-Bench基准测试框架构建，旨在评估长周期自主智能体的记忆能力。构建过程始于从Hugging Face平台自动读取问答数据集与配套语料库，随后通过context_mode与context_key参数动态生成评估上下文。该框架支持三种记忆类型——情景记忆、语义记忆与程序性记忆的评估，并覆盖深度研究、代码智能体与表格任务三大领域。数据被自动组织为code、deepresearch、science_dev等分割，而语料库则包含corpus与longterm_context分割，便于后续检索增强或纯上下文输入评估。

特点

该数据集的核心特点在于其双轨评估模式与模块化设计。一方面，Agent模式采用BM25等检索算法增强智能体记忆，而Long-Context模式则直接将完整上下文传递给测试模型，以纯API方式进行评估。另一方面，测试模型与评判模型可独立配置，允许研究者灵活切换不同模型组合。此外，数据集内置了长输入韧性机制，对于超长输入自动进行字符级截断与重试，确保评估流程的鲁棒性。这些设计使得记忆能力的量测既全面又精细，兼顾了实用性与科研灵活性。

使用方法

使用该数据集时，首先需通过Hugging Face CLI将问答数据集与语料库下载至本地固定目录，并配置环境变量以设置测试模型与评判模型的API端点与密钥。随后，可通过run_memory_data_eval.py脚本启动评估，指定数据分割、模型名称与检索方法（如BM25或long_context）。例如，执行bm25模式的评估需设置--agent-method bm25及--workers参数以并行化生成阶段，而长上下文评估则需设定--input-length-limit以控制输入长度。评估结果自动输出至指定目录，并支持仅摘要总结或跳过评判等灵活操作。

背景与挑战

背景概述

在自主智能体（autonomous agents）的长期任务执行中，记忆能力是决定其能否实现持续学习、复杂推理与可靠决策的核心瓶颈。尽管大语言模型（LLMs）在短时任务中展现了卓越的性能，然而在长程（long-horizon）交互场景下，智能体对历史信息的多类型记忆——包括情节记忆、语义记忆与程序记忆——的保持与检索能力仍远未达到人类水平。为系统性地评估这一关键能力，来自多家机构的研究人员于2026年在ICML上提出了Memoria-Bench基准数据集，其核心组件包括Memoria-Flash问答数据集与Memoria-Bench-Flash-Corpus语料库。该基准聚焦于深度研究、代码智能体及表格任务三大领域，通过构建结构化的记忆评估框架，首次实现了对智能体在不同记忆类型与时间跨度下的系统度量，填补了该领域标准化评估工具的空白，为未来具身智能与通用代理系统的发展提供了重要的参考标准。

当前挑战

Memoria-Bench旨在解决的核心领域问题在于，现有基准多集中于短时或单步记忆任务，难以量化和诊断智能体在长时间跨度下的多类型记忆退化与混淆现象。具体而言，长期自主智能体在记忆方面面临三重挑战：首先，情节记忆的持续衰减要求模型能够在无限流式输入中精准定位并重建关键事件片段；其次，语义记忆的稳定维护挑战体现在智能体需要从庞杂的交互历史中抽象出持久的实体关系和规则，避免因新知覆盖而产生灾难性遗忘；最后，程序记忆的泛化与组合能力评估尤为困难，因为涉及到多步策略的继承、更新与迁移。在构建过程中，团队还面临了数据规模与真实性的平衡难题：如何生成足够长且具有自然因果链的交互语料，同时确保各记忆类型标签的精确性，这要求设计细粒度的数据切片（如长程上下文与块ID的联合构建模式），以及多模态上下文的管理与高效检索管道。此外，评价指标的设计本身也是一大挑战，需区分模型本身的生成能力与记忆检索的正确性，这对分离式评判管道（judge pipeline）的鲁棒性提出了极高要求。

常用场景

经典使用场景

在自主智能体长期任务评估领域，Memoria-Bench数据集为研究者提供了标准化的记忆能力测评框架。其最经典的使用场景是评测大语言模型在深度研究、代码代理和表格任务三类长周期工作流中的记忆表现，通过episodic_state_tracking、semantic_state_tracking和procedural_aggregation等子任务，系统性地考察智能体的情景记忆、语义记忆和程序记忆。研究者可借助BM25检索增强代理模式或纯长上下文的API评估模式，在统一协议下对模型进行对比分析。

解决学术问题

该数据集直面当前主流评估基准缺乏对智能体长期交互中记忆保留与利用能力的系统度量这一学术空白。它解决了三个关键问题：如何区分评估情景记忆（事件细节）、语义记忆（知识积累）与程序记忆（操作步骤）在长时序任务中的退化程度；如何构建可复现的、跨越不同领域（科学研究、代码开发、表格分析）的记忆评测环境；以及如何隔离记忆能力与语言生成能力的耦合影响。这些工作奠定了智能体记忆研究的方法论基础，推动了认知科学与语言模型评估的交叉融合。

衍生相关工作

Memoria-Bench数据集已衍生出多项具有影响力的研究工作。围绕其评测框架，研究者提出了针对长上下文记忆的检索增强策略改进方案，包括基于时间戳截断的抗遗忘算法与分块注意力的记忆压缩方法。在模型层面，催生了专为长期任务优化的记忆增强架构，如可微分记忆指针网络与分层检索生成协同框架。此外，该数据集的Flash版本和语料库已成为社区内规范化对比的基准，推动了一系列关于记忆遗忘曲线建模与情景记忆重构的前沿探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集