simulating-memory

github2026-05-27 更新2026-06-01 收录

下载链接：

https://github.com/nickatomlin/simulating-memory

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于模拟人类记忆的语言模型基准数据，包括人类参考数据和模型输出，支持经典心理学记忆实验，旨在使语言模型具有更人类化的记忆约束。

This dataset contains benchmark data for language models that simulate human memory, including human reference data and model outputs. It supports classic psychological memory experiments and aims to endow language models with more human-like memory constraints.

创建时间：

2026-05-24

原始信息汇总

数据集概述

数据集名称：Simulating Human Memory with Language Models

来源：该数据集与论文《Simulating Human Memory with Language Models》相关联，论文可在 arXiv 查阅（地址：https://arxiv.org/abs/2605.25680）。

核心内容：本数据集旨在研究语言模型的记忆能力与人类记忆之间的差异。通过在心理学经典记忆实验中对人类和语言模型进行测试，发现开箱即用的语言模型记忆表现优于人类，即使在被提示模仿人类行为时也是如此。研究者通过改进提示策略和使用压缩器，使语言模型能够以更接近人类的方式遗忘内容，并初步证明具有人类记忆限制的语言模型在辅助下游教育任务中能作为更有效的用户模拟器。

数据组成：

人类参考数据：作为基准，用于比较和验证。
模型输出：语言模型在十项记忆任务中的表现结果。
代码库：包含运行任务、计算评分等功能的代码，组织目录如下：
- bench：十项记忆任务的代码。
- runs：人类数据和模型输出。
- src：计算评分的代码。
- application：教育文档重排序实验的代码。
- data：运行任务所需的额外数据。

许可证：

代码：MIT License
数据集：CC BY 4.0

引用格式：

@misc{wang2026simulatinghumanmemorylanguage, title={Simulating Human Memory with Language Models}, author={Qihan Wang and Nicholas Tomlin and Michael Hu and Brian Dillon and Tal Linzen}, year={2026}, eprint={2605.25680}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2605.25680}, }

搜集汇总

数据集介绍

构建方式

该数据集基于认知心理学中的经典记忆实验范式构建，旨在系统评估语言模型在模拟人类记忆时的表现差异。研究团队选取了十项具有代表性的记忆任务，通过标准化流程在人类被试和多种语言模型上同步运行实验，收集了人类行为数据和模型输出结果。任务代码集成于`bench`模块，原始数据和模型生成结果存储于`runs`目录，评分与分析工具位于`src`，而针对下游教育任务的文档重排序应用则封装在`application`中。所有补充材料统一存放于`data`文件夹，确保实验的可复现性与扩展性。

特点

该数据集的核心特色在于其跨学科设计，直接桥接了认知心理学与大语言模型研究。它首次提供了人类与语言模型在十项记忆任务上的对照数据，揭示了模型“超人类”的记忆能力，并通过提示策略优化与“压缩器”机制诱导模型产生更贴近人类的遗忘模式。数据集不仅包含原始行为数据，还提供了标准化评分协议与人机相似度计算工具，支持研究者快速评估新模型的记忆拟人化程度。采用MIT和CC BY 4.0双许可证，兼顾代码复用与数据共享的灵活性。

使用方法

使用者可首先通过`bench`模块复现十项记忆实验，或直接加载`runs`中的人类与模型基线数据进行对比分析。推荐使用`src`下的评分脚本计算模型输出与人类表现的相似度指标。对于需要定制化应用场景的研究者，可参考`application`中的教育文档重排序案例，将具有人类化记忆约束的模型集成到下游任务中。此外，数据集提供了清晰的代码结构与文档，支持通过调整提示词或引入压缩参数来探索模型遗忘行为的可塑性。

背景与挑战

背景概述

随着大语言模型在用户模拟等交互场景中的广泛应用，其与人类认知行为的吻合度成为关键研究问题。2026年，由Qihan Wang、Nicholas Tomlin、Michael Hu、Brian Dillon及Tal Linzen等研究人员主导的项目，借鉴心理学经典记忆实验范式，系统性地评估了语言模型与人类在记忆表现上的差异。该研究旨在揭示模型在模拟人类用户时面临的‘超记忆’困境——即模型在未经特殊设计时记忆准确度远超人类，这一特性反而阻碍了其在需要真实用户行为建模的下游任务（如教育文档重排序）中的有效性。通过引入人类参考数据集与标准化基准，该工作为认知科学与自然语言处理的交叉领域提供了重要的研究工具，推动了可控的人类记忆模拟进程。

当前挑战

该数据集面临的核心挑战源于模型记忆与人类记忆的本质差异。第一，领域问题层面，现有语言模型即便采用模仿人类行为的提示策略，仍表现出远超人脑的精确记忆，导致在需要体现遗忘、扭曲等认知特征的用户模拟场景中产生失真。第二，构建过程中，如何设计能有效诱发模型类人遗忘的十种记忆任务（如序列回忆、干扰抑制）是一大难点，需要平衡实验心理学范式的严谨性与模型的输入输出限制。第三，模型与人类记忆相似度量化方法的缺乏，以及跨模型泛化能力的评估难题——当前基准工具尚在迭代中，需解决不同架构模型间记忆行为一致性的挑战。

常用场景

经典使用场景

在认知科学与人工智能的交叉领域，simulating-memory数据集的核心用途在于检验并校准语言模型对人类记忆行为的模拟能力。该数据集复现了心理学中经典的记忆实验范式，通过对比人类受试者与语言模型在相同任务上的表现，评估模型在记忆衰减、干扰效应、序列位置效应等维度的仿人程度。研究者可利用该数据集对各类语言模型进行标准化测试，从而筛选出或通过提示策略与压缩机制改进出更具人类记忆特征的模型版本。

实际应用

在实际应用中，该数据集最直接的场景是教育科技领域。例如，在智能辅导系统中，需要模拟典型学生的知识掌握与遗忘曲线，以优化教学内容的重复间隔与呈现顺序。研究利用该数据集训练的具有人类记忆约束的语言模型，在教育文档重排任务中展现出更贴近真实用户的模拟效果，使得系统能够更精准地预测学生可能记住或遗忘的知识点，进而实现个性化学习路径的自动生成与教学材料的动态调整。

衍生相关工作

该数据集的工作直接催生了若干经典研究方向。其一，基于提示策略的“人为遗忘”方法，通过设计链式思维或角色扮演提示，诱导语言模型产生更类似人类的记忆衰减曲线。其二，记忆压缩器的提出与优化，研究者借鉴认知心理学中的工作记忆模型，开发出能主动删除或模糊化多余信息的模块，使得模型在长对话或持续学习场景中的行为更趋近于人。此外，该数据集还启发了关于语言模型认知架构的评价体系，推动了从单纯追求准确率向追求行为效度的评估范式转变。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集