MemoryBench

github2025-10-25 更新2025-10-26 收录

下载链接：

https://github.com/LittleDinoC/MemoryBench

下载链接

链接失效反馈

官方服务：

资源简介：

MemoryBench是一个标准化且可扩展的基准数据集，用于评估大型语言模型系统中的记忆和持续学习能力。它涵盖多个领域、语言和任务类型，通过用户反馈模拟框架测试系统从累积反馈中学习的能力，旨在推动更自适应、反馈驱动和高效的LLM系统研究。

MemoryBench is a standardized and scalable benchmark dataset for evaluating the memory and continual learning capabilities of large language model (LLM) systems. Spanning diverse domains, languages and task types, it tests the system's capacity to learn from accumulated feedback via a user feedback simulation framework, with the goal of advancing research on more adaptive, feedback-driven and efficient LLM systems.

创建时间：

2025-10-15

原始信息汇总

MemoryBench 数据集概述

数据集简介

MemoryBench 是一个用于评估大语言模型系统中记忆与持续学习能力的标准化可扩展基准。该基准通过模拟用户反馈机制，覆盖多领域、多语言和多种任务类型，旨在推动更自适应、反馈驱动和高效的大语言模型系统发展。

核心特点

评估重点：专注于测试系统在服务时间内从累积用户反馈中学习的能力
任务多样性：涵盖异构阅读理解任务和长文本输入处理
多维度覆盖：包含多个领域、语言和任务类型

数据集结构

配置结构

configs/ datasets/ # 数据集配置文件 final_evaluate_summary_wo_details.json # 标准化数据 raw/ # 原始数据集 src/ datasets/ # 数据集类 agents/ # 评估代理和记忆系统基线

配置文件

configs/datasets/each.json - 各数据集的元数据
configs/datasets/domain.json - 按领域分组的数据集
configs/datasets/task.json - 按任务分组的数据集

数据集获取

完整数据集公开发布于 Hugging Face：https://huggingface.co/datasets/THUIR/MemoryBench

数据集加载

加载方式

通过 load_memory_bench 函数加载数据集，支持三种加载模式：

single - 加载单个数据集
domain - 按领域合并数据集
task - 按任务合并数据集

数据集属性

dataset_name - 数据集名称
dataset - HuggingFace 数据集对象，包含训练和测试划分
has_corpus - 是否包含语料库
get_data(test_idx) - 获取指定索引的数据点

评估框架

评估配置

WritingBench 数据集：使用官方评估模型 WritingBench-Critic-Model-Qwen-7B
其他数据集：使用黑盒评估模型（论文中使用 DeepSeek-V3）

评估功能

evaluate() - 执行评估，返回详细指标
summary_results() - 汇总结果，支持标准化计算

实验类型

1. 离线策略实验

加载所有训练对话到系统记忆
基于检索的相关记忆回答问题
支持语料库增强检索

2. 分步离线策略实验

分批加载训练对话到记忆
每批记忆添加后测试系统性能
支持批量大小配置

3. 在线策略实验

实时与用户反馈模拟器交互生成对话
动态将生成对话加载到记忆
支持多轮对话配置

4. 训练性能评估

在训练数据上执行离线策略实验
评估系统在已知数据上的表现

支持的系统基线

Vanilla (无记忆系统)
BM25-M (基于消息的BM25检索)
BM25-S (基于对话的BM25检索)
Emb-M (基于消息的嵌入检索)
Emb-S (基于对话的嵌入检索)
A-Mem (自适应记忆系统)
Mem0 (Mem0记忆系统)
MemoryOS (MemoryOS记忆系统)

技术实现

使用 vLLM 部署语言模型服务
支持 Qwen 系列模型
提供统一的配置接口
可扩展的记忆系统架构

搜集汇总

数据集介绍

构建方式

在大型语言模型系统研究领域，构建能够模拟真实用户交互的评估框架至关重要。MemoryBench通过设计用户反馈模拟机制，整合了多领域、多语言及多样化任务类型的数据集。该数据集采用分层结构组织，涵盖开放领域、学术知识与法律等核心范畴，并依据输入输出长度特征划分为四类任务模式。数据采集过程融合了人工标注与自动化生成技术，确保样本既具备语义多样性又保持逻辑一致性，最终形成包含训练集与测试集的标准化评估资源。

特点

MemoryBench的显著特征在于其全面覆盖异构任务场景与动态交互环境。数据集囊括对话生成、阅读理解、知识推理等多种任务形态，并支持中英文双语评估。其独特之处在于引入了隐式反馈机制与对话历史追踪功能，能够精准模拟持续学习过程中的知识积累效应。此外，数据集特别设计了包含语料库的专项任务，为研究记忆系统在复杂信息检索场景下的表现提供了丰富素材。这种多维度的特性设计使MemoryBench成为评估语言模型适应性与记忆能力的理想平台。

使用方法

研究人员可通过标准化接口灵活调用MemoryBench的不同模块。数据集加载函数支持按单一数据集、领域分类或任务类型三种模式获取数据，并配备评估模式开关以适配不同实验需求。评估流程采用模块化设计，首先需配置专用评判模型与环境参数，随后通过预测结果与标准答案的比对生成细粒度指标。系统还提供结果汇总与归一化功能，能够自动计算跨数据集的综合性能得分。对于进阶研究，代码库完整实现了离线策略、逐步学习与在线策略三类实验范式，为探索记忆系统的动态演进规律提供了完整方法论支撑。

背景与挑战

背景概述

随着大规模语言模型系统在数据、参数和计算资源上的扩展逐渐触及性能天花板，清华大学信息检索研究团队于2024年推出了MemoryBench基准数据集。该数据集聚焦于语言模型记忆与持续学习能力的评估，旨在解决传统基准在模拟真实服务场景中用户反馈积累学习方面的不足。通过构建覆盖多领域、多语言、多任务类型的评估框架，MemoryBench为开发具备自适应与高效学习能力的语言模型系统提供了重要研究基础，推动了人工智能系统从静态知识库向动态经验学习范式的转变。

当前挑战

在领域问题层面，MemoryBench需应对语言模型在长期交互中知识遗忘与冲突消解的难题，其评估任务要求系统从异构对话流中提取有效模式并实现跨域知识迁移。数据集构建过程中面临三大挑战：一是用户反馈模拟需平衡真实性与可控性，二是多轮对话数据标注需保持语义连贯性与任务多样性，三是评估指标设计需兼顾生成质量与记忆一致性。这些挑战共同指向了构建具备人类式持续学习能力的语言模型系统这一核心目标。

常用场景

经典使用场景

在大型语言模型系统研究中，MemoryBench作为标准化评估框架，主要应用于持续学习与记忆能力的系统性测试。该数据集通过模拟用户反馈机制，构建了涵盖开放领域、学术知识及法律等多领域的异构任务场景，使研究者能够评估模型在动态交互环境中积累经验并优化响应的能力。其经典使用场景包括对模型在长短期记忆任务中的表现进行量化分析，为开发自适应记忆系统提供关键基准数据。

实际应用

在实际应用层面，MemoryBench为构建具备长期交互能力的智能助手系统提供了验证平台。其支持的对话系统、创意写作等场景可直接服务于教育咨询、法律文书生成等垂直领域，通过评估模型在持续对话中的记忆一致性及反馈适应能力，助力开发具备实践学习功能的商用级语言模型，提升人工智能系统在真实环境中的服务鲁棒性。

衍生相关工作

基于该数据集衍生的经典工作包括BM25-M、Emb-S等记忆检索系统的对比研究，以及Mem0、MemoryOS等新型记忆架构的验证实验。这些研究通过离策略、步进式学习等实验范式，系统探索了不同记忆机制在知识保留与迁移中的效能，为后续工作如动态记忆网络、联邦学习等方向提供了方法论支撑和性能参照基准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集