Memoria-Flash, Memoria-Bench-Flash-Corpus
收藏Memoria-Bench 数据集详情
数据集概述
Memoria-Bench 是一个用于评估长时域自主智能体(Long-Horizon Autonomous Agents)记忆能力的综合性基准数据集,已被 ICML 2026 接收。该基准围绕三个主要领域构建:深度研究(deep research)、代码智能体(code agents) 和表格任务(tabular tasks),用于评估智能体在工作流程中的情节记忆(Episodic Memory)、语义记忆(Semantic Memory)和程序记忆(Procedural Memory)。
数据集构成
核心数据集
| 数据集名称 | 说明 | 链接 |
|---|---|---|
| Memoria-Flash | 用于评估智能体记忆能力的 Flash QA 数据集 | https://huggingface.co/datasets/iMemory/Memoria-Bench-Flash |
| Memoria-Bench-Flash-Corpus | Flash 版本的辅助语料库,用于记忆数据评估 | https://huggingface.co/datasets/iMemory/Memoria-Bench-Flash-Corpus |
数据集划分
- QA 数据集(Memoria-Flash)包含三个划分:
codedeepresearchscience_dev
- 语料库数据集(Memoria-Bench-Flash-Corpus)包含两个划分:
corpuslongterm_context
评估场景
评估的记忆类型
- 长时记忆(Long-term Memory):
episodic_state_tracking(情节状态跟踪)semantic_state_tracking(语义状态跟踪)procedural_aggregation(程序聚合)
- 工作记忆(Working Memory):
episodic_multi_hop(情节多跳推理)semantic_state_tracking(语义状态跟踪)procedural_aggregation(程序聚合)
评估模式
- Agent 模式:检索增强的智能体评估,使用 BM25 作为检索器
- Long Context 模式:纯 API 评估,将完整上下文传递给被测试模型
评估输出
评估结果存储在以下目录结构中:
- BM25 模式:
outputs/<model>/<model>-bm25/eval_outputs/<model>/<model>-bm25/eval_summary/<model>_bm25_flash_code.csv
- Long Context 模式:
outputs/<model>/<model>-long_context/eval_outputs/<model>/<model>-long_context/eval_summary/<model>_long_context_flash_code.csv
关键技术特性
- 自动 Hugging Face 数据准备:自动读取 QA 数据集和辅助语料库,通过
context_mode + context_key构建评估上下文 - 基于 API 的评估:直接评估兼容 OpenAI 的 API,无需本地推理服务
- 分离的裁判模型流水线:被测试模型和裁判模型可独立配置
- 长输入容错机制:
- Agent 模式:超长输入生成失败时记录为空输出并继续评估
- Long Context 模式:输入过长时自动截断至 1280000 字符,后续重试保留前 80%
环境要求
- Python 版本:3.11+
- 关键依赖:litellm、google-genai(测试 Gemini 时需要)、NLTK(需要 punkt 和 punkt_tab 资源)
引用信息
bibtex @inproceedings{wang2026memoriabench, title={Memoria-Bench: A Comprehensive Benchmark for Evaluating Memory in Long-Horizon Autonomous Agents}, author={Qiufeng Wang and Jiaxuan Zhu and Ziteng Feng and Zhenyu Cui and Jialong Wu and Shuxia Lin and Caorui Li and Renzhao Liang and Yifei Yu and Kun Wang and Qiankun Li and Guibin Zhang and Siming Huang and Xianzhen Luo and Jie Wang and Junnan Dong and Siyu An and Biao Liu and Yidong Wang and Cunxiang Wang and Yu Chen and Zhenhong Zhou and Liang Lin and Zhongxiang Sun and Deng-Bao Wang and Xu Yang and Yang Liu and Min-Ling Zhang and di yin and Xing Sun and Jiaheng Liu and Qian-Wen Zhang}, booktitle={Proceedings of the 43rd International Conference on Machine Learning (ICML)}, year={2026}, }




