ScriptMem

github2026-05-08 更新2026-05-09 收录

下载链接：

https://github.com/memorax-ai/ScriptMem

下载链接

链接失效反馈

官方服务：

资源简介：

ScriptMem是一个基于真实世界脚本叙事的代理记忆基准，构建了角色、事件和关系的知识图谱，并从中采样了457个评估问题，涵盖6种问题类型。

ScriptMem is a benchmark for agent memory grounded in real-world scripted narratives. It constructs a knowledge graph encompassing characters, events and their relationships, and samples 457 evaluation questions spanning 6 distinct question types.

创建时间：

2026-05-07

原始信息汇总

📌 数据集概述：ScriptMem

ScriptMem 是一个用于评估大模型长期代理记忆能力的诊断性基准测试集，其数据来源于真实的剧本叙事。不同于仅依赖大模型生成的合成长对话，ScriptMem 基于角色、事件和关系构建知识图谱，并从中采样生成了 457 个评估问题，涵盖 6 种问题类型。

🎯 设计目标与核心理念

🎬 真实的剧本叙事：使用 4 个来源作品，覆盖长期关系（《老友记》）、高密度辩论（《十二怒汉》）、深度对话游戏（《来自地球的人》）和公共事件冲突（《人民公敌》）。
🕸️ 图驱动的问题构建：每个剧本包含数百个实体节点和数千条关系边，能系统性地采样复杂的记忆链，而非随机选取句子。
🔬 诊断性设计：6 种问题类型对应 6 种记忆故障模式，错误答案能揭示具体是哪种记忆机制出现了问题。

📊 数据集统计

剧本作品	总问题数	单选题	多选题	排序题
12 Angry Men（十二怒汉）	99	71	20	8
An Enemy of the People（人民公敌）	94	59	27	8
Friends（老友记）	174	99	61	14
The Man from Earth（来自地球的人）	90	69	15	6
总计	457	298	123	36

6 种问题类型：

用户画像（User Profile）
事件追踪（Event Tracking）
时间演变（Temporal Evolution）
社会关系（Social Relations）
细粒度数据（Fine-Grained Data）
经验教训（Lessons Learned）

🏆 排行榜（基于统一 GPT-4o-mini 主干的总体准确率）

排名	方法	总体准确率	提交日期
🥇	MemoraX	60.3%	2026.05
🥈	EverMemOS	42.9%	2026.05
🥉	Mem0	42.0%	2026.05
4	MemOS	36.4%	2026.05
5	M-Flow	32.6%	2026.05

按问题类型的准确率分布图表明：现有系统并非全面薄弱，不同方法在不同记忆维度上存在失败差异。

🚀 快速开始与仓库结构

无需第三方 Python 包。使用以下命令即可运行评估：

bash

1. 运行评估

python scripts/run_eval.py --data-dir data/raw --submission your_submission.json --output eval_summary.json --details eval_details.json

2. 生成按问题的诊断报告

python scripts/summarize.py --input-path eval_details.json --output-path eval_details_summary.json --markdown-output-path eval_details_summary.md

仓库结构：

ScriptMem/ ├── data/ │ ├── raw/ # 问答数据（不包含原始剧本文本） │ └── public/ # 导出的 JSONL 格式数据 ├── src/ # 核心代码（导出、评估、评分、总结） ├── scripts/ # 命令行工具 └── assets/ # 图表与可视化

📝 提交格式

提交文件为 JSON 列表，包含 4 个字典（每个剧本一个）。
答案格式：
- 单选题：(B)
- 多选题：(A, C, D)（必须包含所有正确选项且无多余项）
- 排序题：(D, A, C, B)（必须完全匹配正确顺序）

注意：

数据集不包含原始剧本对话文本，conversation 字段仅包含省略说明和合成示例。
数据集材料（任务设计、问题、参考答案、评估代码等）基于 CC BY-NC 4.0 许可，仅限非商业学术与研究使用。

📄 引用信息

bibtex @misc{scriptmem2026, title={ScriptMem: A Diagnostic Benchmark for Long-Term Agent Memory}, year={2026}, author={{ScriptMem Team}}, url={https://github.com/memorax-ai/ScriptMem} }

搜集汇总

数据集介绍

构建方式

ScriptMem基于四部经典剧作构建，包括《老友记》、《十二怒汉》、《来自地球的男人》和《人民公敌》。研究者首先从剧本中提取人物、事件与关系，构建出包含数百个实体节点和数千条关系边的知识图谱。随后，通过系统采样的方式，从图谱中抽取跨角色、跨时间、跨事件的记忆链，最终形成457道评测题目。题目涵盖单选择、多选择和排序三类形式，并细分为用户画像、事件追踪、时间演化、社交关系、细粒度数据和经验教训六种类型。原剧本对话文本因版权原因未包含在数据集中。

特点

ScriptMem的突出特点在于其诊断性设计。六类题目对应六种常见记忆失效模式，干扰项通过违反特定关键约束生成，因此模型的错误回答能直接揭示是哪个记忆环节出现了问题。此外，数据集依托真实的复杂叙事结构，而非简单的大语言模型合成对话，其涉及的多方交互、长期关系与连续信息演化，远比双人对话在结构上更为复杂。未来还将提供自动化归因模块，将每项错误追溯至具体的记忆阶段。

使用方法

使用ScriptMem无需安装第三方Python包。用户需准备JSON格式的提交文件，其中包含每道题的预测答案：单选题格式如(B)，多选题如(A, C, D)，排序题如(D, A, C, B)。运行评测时，执行python scripts/run_eval.py并指定数据目录和提交文件路径，将生成评测摘要和详细结果文件。随后可通过python scripts/summarize.py生成按题目类型细分的诊断报告，以JSON和Markdown格式输出，便于分析模型在不同记忆维度上的表现。

背景与挑战

背景概述

随着大语言模型从单轮问答工具向长期运行自主智能体演进，记忆能力已成为制约其性能的关键瓶颈。为系统评估智能体的长期记忆能力，ScriptMem数据集于2025年由MemoraX AI与牛津大学联合构建，以四部经典脚本作品（《老友记》《十二怒汉》《来自地球的男人》《人民公敌》）为叙事基底，通过构建角色、事件与关系的知识图谱，采样出涵盖用户画像、事件追踪、时序演化、社交关系、细粒度事实与经验总结六类问题的457道评估题。该数据集突破传统合成长对话的局限，基于真实多轮、多角色、跨事件的复杂记忆链设计，为智能体记忆系统的诊断提供了结构化基准，对长时记忆机制研究具有重要推动价值。

当前挑战

ScriptMem面临的核心挑战源于多维度记忆任务的复杂性。在领域问题层面，现有记忆系统在处理跨角色关系推断、时序事件排序与信息过时判断时表现脆弱，排行榜显示最优方法整体准确率仅60.3%，暴露出对复杂图结构记忆链的建模短板。在构建过程中，挑战在于从脚本叙事中精确抽取角色、事件及关系三元组，并设计六类诊断问题以覆盖不同记忆失败模式；同时需为每道题构造基于任务特定约束的干扰项，以揭示智能体在存储、更新或检索阶段的故障根源，且因版权限制无法直接使用原始脚本文本，进一步增加了数据标注与验证的难度。

常用场景

经典使用场景

ScriptMem数据集的核心应用在于评估和诊断大语言模型在长期代理记忆任务中的表现。其经典使用场景涵盖从简单的用户画像记忆到复杂的社会关系与事件追踪，特别强调跨角色、跨时间、跨事件的记忆链推理。研究者通过6种精心设计的问询类型——包括用户画像、事件追踪、时间演化、社交关系、细粒度数据与经验教训——来系统性检测代理系统在记忆存储、更新、过期判断及不确定性表达等方面的能力。这种基于真实剧本叙事的评测范式，比传统合成长对话更能揭示模型在多人、多轮、多线索交互中的记忆失效模式。

解决学术问题

ScriptMem直面当前大模型从单轮问答迈向长期自主代理过程中的核心瓶颈——记忆系统脆弱。现有基准多依赖合成数据，难以反映真实世界对话的互动复杂度。该数据集创新性地从真实剧本构建知识图谱，包含数百个实体节点与数千条关系边，据此系统采样生成长程记忆链问题，从而精准定位模型在记忆维度上的结构性盲区。它解决了学术领域缺乏诊断性、可归因的长期记忆评测工具这一关键问题，促使研究者从‘整体准确率’的粗粒度比较转向‘何种记忆机制失效’的细粒度归因，对理解与改进代理记忆架构具有里程碑意义。

衍生相关工作

ScriptMem的发布催生了一系列围绕代理记忆系统的创新工作。排行榜前列的MemoraX、EverMemOS与Mem0等方法，均以该基准为重要评测场域，展示了不同记忆架构（如图记忆网络、分层存储管理、混合检索策略）在6种记忆任务上的优劣。此外，数据集自身设计的自动归因模块正在开发中，有望开启错误溯源至具体记忆阶段（编码、存储、检索或更新）的研究新范式。后续工作可能包括扩展至更多剧本体裁、引入跨剧本长程记忆，以及将ScriptMem的评估框架迁移至多模态或终身学习场景，巩固其在代理记忆评测领域的标杆地位。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集