ScriptMem
收藏📌 数据集概述:ScriptMem
ScriptMem 是一个用于评估大模型长期代理记忆能力的诊断性基准测试集,其数据来源于真实的剧本叙事。不同于仅依赖大模型生成的合成长对话,ScriptMem 基于角色、事件和关系构建知识图谱,并从中采样生成了 457 个评估问题,涵盖 6 种问题类型。
🎯 设计目标与核心理念
- 🎬 真实的剧本叙事:使用 4 个来源作品,覆盖长期关系(《老友记》)、高密度辩论(《十二怒汉》)、深度对话游戏(《来自地球的人》)和公共事件冲突(《人民公敌》)。
- 🕸️ 图驱动的问题构建:每个剧本包含数百个实体节点和数千条关系边,能系统性地采样复杂的记忆链,而非随机选取句子。
- 🔬 诊断性设计:6 种问题类型对应 6 种记忆故障模式,错误答案能揭示具体是哪种记忆机制出现了问题。
📊 数据集统计
| 剧本作品 | 总问题数 | 单选题 | 多选题 | 排序题 |
|---|---|---|---|---|
| 12 Angry Men(十二怒汉) | 99 | 71 | 20 | 8 |
| An Enemy of the People(人民公敌) | 94 | 59 | 27 | 8 |
| Friends(老友记) | 174 | 99 | 61 | 14 |
| The Man from Earth(来自地球的人) | 90 | 69 | 15 | 6 |
| 总计 | 457 | 298 | 123 | 36 |
6 种问题类型:
- 用户画像(User Profile)
- 事件追踪(Event Tracking)
- 时间演变(Temporal Evolution)
- 社会关系(Social Relations)
- 细粒度数据(Fine-Grained Data)
- 经验教训(Lessons Learned)
🏆 排行榜(基于统一 GPT-4o-mini 主干的总体准确率)
| 排名 | 方法 | 总体准确率 | 提交日期 |
|---|---|---|---|
| 🥇 | MemoraX | 60.3% | 2026.05 |
| 🥈 | EverMemOS | 42.9% | 2026.05 |
| 🥉 | Mem0 | 42.0% | 2026.05 |
| 4 | MemOS | 36.4% | 2026.05 |
| 5 | M-Flow | 32.6% | 2026.05 |
- 按问题类型的准确率分布图表明:现有系统并非全面薄弱,不同方法在不同记忆维度上存在失败差异。
🚀 快速开始与仓库结构
无需第三方 Python 包。使用以下命令即可运行评估:
bash
1. 运行评估
python scripts/run_eval.py --data-dir data/raw --submission your_submission.json --output eval_summary.json --details eval_details.json
2. 生成按问题的诊断报告
python scripts/summarize.py --input-path eval_details.json --output-path eval_details_summary.json --markdown-output-path eval_details_summary.md
仓库结构:
ScriptMem/ ├── data/ │ ├── raw/ # 问答数据(不包含原始剧本文本) │ └── public/ # 导出的 JSONL 格式数据 ├── src/ # 核心代码(导出、评估、评分、总结) ├── scripts/ # 命令行工具 └── assets/ # 图表与可视化
📝 提交格式
- 提交文件为 JSON 列表,包含 4 个字典(每个剧本一个)。
- 答案格式:
- 单选题:
(B) - 多选题:
(A, C, D)(必须包含所有正确选项且无多余项) - 排序题:
(D, A, C, B)(必须完全匹配正确顺序)
- 单选题:
注意:
- 数据集不包含原始剧本对话文本,
conversation字段仅包含省略说明和合成示例。 - 数据集材料(任务设计、问题、参考答案、评估代码等)基于 CC BY-NC 4.0 许可,仅限非商业学术与研究使用。
📄 引用信息
bibtex @misc{scriptmem2026, title={ScriptMem: A Diagnostic Benchmark for Long-Term Agent Memory}, year={2026}, author={{ScriptMem Team}}, url={https://github.com/memorax-ai/ScriptMem} }




