MemoryBench

github2025-10-16 更新2025-10-20 收录

下载链接：

https://github.com/LittleDinoC/MemoryBench-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

MemoryBench旨在为评估LLM系统中的记忆和持续学习提供一个标准化且可扩展的基准，鼓励未来研究朝向更自适应、反馈驱动和高效的LLM系统发展。该基准涵盖多个领域、语言和任务类型，通过用户反馈模拟框架评估LLMsys的持续学习能力

MemoryBench is a standardized and scalable benchmark designed to evaluate memory and continual learning in LLM systems, aiming to encourage future research toward more adaptive, feedback-driven, and efficient LLM systems. This benchmark covers multiple domains, languages and task types, and evaluates the continual learning capabilities of LLMs through a user feedback simulation framework.

创建时间：

2025-10-15

原始信息汇总

MemoryBench 数据集概述

数据集简介

MemoryBench 是一个用于评估大语言模型系统中记忆与持续学习能力的标准化可扩展基准。该基准通过模拟用户反馈机制，全面覆盖多领域、多语言和多种任务类型，旨在推动更自适应、反馈驱动和高效的大语言模型系统发展。

核心特点

评估重点：专注于测试系统在服务时间内从累积用户反馈中学习的能力
任务多样性：涵盖异构任务类型，突破传统长文本阅读理解任务的局限
领域覆盖：包含开放领域、学术知识、法律等多个专业领域
语言支持：支持多种语言任务评估

数据集结构

配置目录

configs/datasets/ - 数据集配置文件
- each.json - 各数据集元数据
- domain.json - 按领域分组的数据集
- task.json - 按任务分组的数据集
configs/final_evaluate_summary_wo_details.json - 归一化数据

数据目录

raw/ - 原始数据集文件

源代码目录

src/datasets/ - 数据集类
src/llms/ - 大语言模型接口
src/agents/ - 评估代理

数据集获取

完整数据集公开发布于 Hugging Face： https://huggingface.co/datasets/THUIR/MemoryBench

使用方法

环境配置

bash conda create -n memorybench python=3.10 conda activate memorybench pip install -r requirements.txt

数据集加载

通过 load_memory_bench 函数加载数据集：

参数说明：
- dataset_type：加载类型（single/domain/task）
- name：数据集/领域/任务名称
- return_instance：是否返回数据集类实例
- eval_mode：是否启用评估模式

评估功能

通过 evaluate 函数评估模型预测：

输入要求：包含数据集名称、测试索引和模型响应的预测列表
输出格式：包含数据集名称、样本索引和各项指标得分的详细结果

结果汇总

通过 summary_results 函数计算总体性能得分：

单数据集：直接计算各指标平均值
领域/任务：基于预计算统计数据进行跨数据集归一化

相关资源

完整基线实验实现代码库： https://github.com/LittleDinoC/MemoryBench-code

搜集汇总

数据集介绍

构建方式

在大型语言模型系统研究领域，构建具备记忆与持续学习能力的框架已成为重要方向。MemoryBench数据集通过模拟用户反馈机制，整合了多领域、多语言及多样化任务类型的数据资源。其构建过程采用标准化配置管理，将数据集按领域和任务类型进行系统分类，并依托Hugging Face平台提供公开访问接口，确保了数据结构的可扩展性与评估流程的规范性。

特点

该数据集显著特点在于突破了传统长文本理解任务的局限，专注于评估模型在服务过程中从累积反馈中持续学习的能力。其覆盖开放领域、学术知识及法律等多个专业领域，同时包含长短文本交互组合的任务类型，为全面衡量模型适应性提供了多维测试基准。实验表明，现有先进基线方法在效率与效果上仍存在明显不足，凸显了该基准的前沿性与挑战性。

使用方法

使用者可通过标准化接口灵活加载数据集，支持按单数据集、领域或任务类型进行模块化调用。评估流程集成自动化指标计算与多维度结果归一化功能，通过配置环境参数与预测数据即可实现端到端性能评测。该框架提供轻量级代码库与详细文档，支持研究者在统一标准下开展记忆机制与持续学习算法的对比实验。

背景与挑战

背景概述

随着大规模语言模型在数据、参数和计算资源上的扩展逐渐触及上限，清华大学信息检索研究团队于2023年推出MemoryBench基准数据集，旨在构建面向持续学习与记忆机制的系统性评估框架。该数据集通过模拟真实场景中的用户反馈交互，突破了传统长文本理解任务的局限，为探索语言模型在动态环境中的自适应进化提供了关键基础设施，推动了高效能认知计算系统的研究进程。

当前挑战

在解决语言模型持续学习能力评估这一核心问题时，MemoryBench需应对异构任务跨域迁移、多轮反馈语义关联等复杂挑战；其构建过程中面临多语言数据对齐、长短期记忆任务建模、以及评估指标标准化等工程难题，这些因素共同构成了该领域向实用化迈进的重要瓶颈。

常用场景

经典使用场景

在大型语言模型系统研究中，MemoryBench数据集被广泛应用于评估模型在连续学习场景下的记忆能力。该数据集通过模拟用户反馈机制，覆盖了开放领域、学术知识与法律等多个专业领域，支持长文本输入与短文本交互的多样化任务组合。研究者利用其标准化接口对模型进行跨语言、跨任务的持续性能测试，有效衡量了模型从历史交互中积累知识并优化响应的能力。

衍生相关工作

基于MemoryBench的评估范式，衍生出多类经典研究工作，包括动态记忆网络架构的改进、增量学习算法的优化以及跨任务知识迁移机制的探索。这些工作通过该数据集提供的多维度指标，系统分析了模型在长期交互中的性能衰减问题，并为构建高效、可扩展的持续学习系统奠定了方法论基础。

数据集最近研究