MemoryBench

github2026-01-27 更新2026-01-30 收录

下载链接：

https://github.com/bebr2/MemoryBench-data

下载链接

链接失效反馈

官方服务：

资源简介：

MemoryBench旨在为评估LLM系统中的记忆和持续学习提供一个标准化且可扩展的基准，鼓励未来工作朝着更自适应、反馈驱动和高效的LLM系统发展。数据集结构包括训练和测试集，核心字段包括唯一标识符、用户输入、数据集名称、语言、附加信息、对话历史和模拟隐式反馈等。

MemoryBench is a standardized and scalable benchmark designed for evaluating memory and continual learning in LLM systems, aiming to inspire future work towards more adaptive, feedback-driven and efficient LLM systems. The dataset structure includes training and test sets, with core fields covering unique identifier, user input, dataset name, language, additional information, conversation history, simulated implicit feedback and more.

创建时间：

2026-01-27

原始信息汇总

MemoryBench 数据集概述

数据集简介

MemoryBench 旨在为评估大语言模型系统中的记忆与持续学习提供一个标准化且可扩展的基准，鼓励未来工作朝着更具适应性、反馈驱动和高效的大语言模型系统发展。

数据集结构

每个数据集均划分为训练集和测试集，包含以下核心字段：

test_idx：每个数据项的唯一标识符。
input_prompt（或 input_chat_messages）：用户输入，可以是字符串（input_prompt）或聊天消息列表（input_chat_messages）。
dataset_name：数据集名称。
lang：数据项的语言。
info：用于评估响应质量的附加信息。
dialog：对话历史，其中 Qwen3-8B 作为助手，Qwen3-32B 作为用户模拟器。
implicit_feedback：对话中模拟的隐式反馈（其中 Qwen3-32B 作为用户模拟器）。
dialog_mistral：对话历史，其中 Qwen3-8B 作为助手，Mistral-Small-3.2-24B-Instruct-2506 作为用户模拟器。
implicit_feedback_mistral：对话中模拟的隐式反馈（其中 Mistral-Small-3.2-24B-Instruct-2506 作为用户模拟器）。

根据数据集的不同，可能存在其他字段，例如对相应原始数据条目或其子类的引用。这些字段仅供参考，不用于 MemoryBench 的训练、测试或评估过程。

数据集加载

通用加载脚本

可使用提供的 Python 脚本加载数据集（如 NFCats 数据集），该脚本包含一个 convert_str_to_obj 函数用于处理字符串到对象的转换。

特殊数据集处理

对于 DialSim 和 Locomo 数据集：

它们不包含原始基线数据，但包含了来自其他基线的对话和隐式反馈，分别存储在 dialog_{BASELINE_NAME} 和 implicit_feedback_{BASELINE_NAME} 字段中。
这些数据集依赖长上下文进行测试或评估，相关上下文存储在 corpus 文件夹中。可使用特定脚本加载长上下文语料（如 corpus/DialSim-bigbang.jsonl）。

数据示例

一个 NFCats 数据集的训练集条目示例如下，展示了 test_idx、input_prompt、dataset_name、lang、info、dialog 和 implicit_feedback 字段的结构与内容。

搜集汇总

数据集介绍

构建方式

在大型语言模型持续学习与记忆能力评估领域，MemoryBench数据集通过精心设计的模拟对话框架构建而成。其核心方法在于利用不同规模的模型分别扮演用户模拟器与助手角色，例如以Qwen3-32B和Mistral-Small-3.2-24B-Instruct-2506生成用户侧的对话与隐式反馈，同时以Qwen3-8B作为助手生成回应，从而合成包含多轮交互、反馈信号及历史上下文的标准化测试样本。数据涵盖多种任务类型，并严格划分为训练集与测试集，确保了评估过程的系统性与可扩展性。

使用方法

研究人员可通过Hugging Face的datasets库便捷加载MemoryBench，利用提供的Python脚本自动解析字符串格式的对话与反馈字段为结构化对象。对于基础任务，直接加载指定子集如NFCats即可获得包含完整对话链的样本；而对于依赖长上下文的评估，需额外加载corpus文件夹中的对应文件以获取背景信息。数据集的设计允许灵活测试不同基线模型，通过对比各模型在相同对话历史与反馈条件下的表现，系统评估其在持续学习场景中的记忆保持、适应效率与反馈利用能力。

背景与挑战

背景概述

MemoryBench数据集由研究团队于近年推出，旨在为大语言模型系统中的记忆与持续学习能力评估提供一个标准化且可扩展的基准。该数据集聚焦于提升大语言模型的适应性、反馈驱动机制与系统效率，其核心研究问题在于如何量化模型在动态交互环境中的长期记忆保持与知识更新性能。通过整合多源对话数据与模拟用户反馈，MemoryBench推动了智能系统向更人性化、上下文感知方向的发展，对自然语言处理与人工智能领域的演进产生了显著影响。

当前挑战

MemoryBench所针对的领域挑战在于解决大语言模型在持续学习场景中的灾难性遗忘与上下文记忆局限性，这要求模型能够在多轮对话中维持信息一致性并适应用户的隐式反馈。构建过程中的挑战则体现在数据集的标准化与可扩展性设计上，包括多源对话历史的对齐、模拟反馈信号的生成，以及长上下文依赖的有效整合，这些技术难点需通过精细的数据结构定义与基线模型协同来克服。

常用场景

解决学术问题

MemoryBench致力于解决大型语言模型在持续学习领域中的核心学术挑战，特别是模型在序列任务中出现的灾难性遗忘问题。通过提供结构化的对话历史与反馈数据，该数据集使研究者能够深入探究模型如何整合新旧知识，并在多轮交互中保持一致性。其意义在于为记忆机制的理论研究提供了实证基础，促进了更高效、鲁棒的持续学习算法的诞生，对推动人工智能向更人性化的自适应系统演进具有深远影响。

实际应用

在实际应用层面，MemoryBench为开发具备长期记忆能力的对话系统与个性化助手提供了关键评估框架。例如，在客服机器人或教育辅导工具中，系统需要记住用户的偏好与历史交互细节以提供连贯服务。该数据集通过模拟真实对话流与用户反馈，帮助工程师测试模型在实际场景中的记忆保持与调用能力，从而优化系统设计，提升用户体验，推动智能应用在医疗、教育等领域的落地与深化。

数据集最近研究