PERMA
收藏PERMA 数据集概述
数据集基本信息
- 数据集名称:PERMA (Personalized Memory Agents Benchmark)
- 核心目标:评估基于记忆系统的智能体在长期、现实的交互中跟踪和应用不断演变的用户偏好的能力。
- 官方代码与数据仓库地址:https://github.com/PolarisLiu1/PERMA
- 相关论文:https://arxiv.org/abs/2603.23231
- 许可证:Apache 2.0
数据集核心特点
- 事件驱动的个性化:包含多会话交互时间线,偏好在此过程中出现并演变。
- 现实的查询噪声:包含文本变异性(如信息省略、上下文切换)。
- 语言风格对齐:对话模式受现实用户-助手交互数据集启发。
- 跨框架评估:支持评估多种记忆系统的统一评估协议。
评估协议
A. 多项选择评估
评估三个维度的细粒度认知能力:
- 任务完成度 (T):衡量定义目标的完成情况。
- 偏好一致性 (P):确保回答基于长期偏好,不产生无根据的幻觉推理。
- 信息置信度 (I):识别模型是否保持决定性立场而不表现出不确定性。
B. 交互式评估
用户模拟器与被测记忆系统智能体之间的多轮模拟交互:
- 模拟器可见黄金对话历史。
- 核心指标包括 Turn-1 和 Turn-2 成功率。
- 在对话时间线的不同时间间隔进行探测评估,以检查性能如何随着人物状态的积累和潜在漂移而演变。
实验设置与结果摘要
评估在单领域和多领域任务、清洁和噪声场景下进行。
A. 独立大语言模型 (多项选择准确率)
- 推理模型:包括 MiniMax-M2.5, GLM-5, Kimi-K2.5。
- 聊天模型:包括 Qwen3-32B, Qwen2.5-72B, Qwen2.5-14B-1M, Llama3.3-70B, Gemini2.5-Flash, GLM-4.7-Flash, GPT-4o-mini。
- 报告了在清洁单领域、噪声单领域、清洁多领域、噪声多领域设置下的准确率。
B. 记忆系统
评估了多种记忆系统基线,包括:
- RAG (BGE-M3)
- MemOS
- Mem0
- Lightmem
- Memobase
- EverMemOS
- Supermemory
评估指标:
- MCQ Acc.:多项选择任务准确率。
- BERT-F1, Memory Score:记忆保真度。
- Search Tokens, Search Duration:搜索效率。
- Completion, User Tokens, Turn = 1, Turn ≤ 2:交互成功率。
结果表格详细列出了上述系统在清洁单领域、噪声单领域、清洁多领域任务下的各项指标表现。
数据与代码使用
依赖安装
-
克隆仓库并安装依赖: bash git clone https://github.com/PolarisLiu1/PERMA.git cd PERMA pip install -r requirements.txt
-
在
code/src目录下创建.env文件配置 API 密钥(如 OpenAI, Mem0 等)。
快速开始
- 生成基准对话:
使用
complete_dataset_generator.py脚本生成标准数据集,可指定主题数量、是否多领域,并可选生成无噪声数据或应用特定对话风格。 - 运行评估:
使用
evaluation.py脚本评估记忆框架(如supermemory)。支持多种评估模式(baseline,rag,longcontext,incremental)和数据集类型(standard,long,long_multi)。
引用
如需使用本数据集或代码,请引用相关论文: bibtex @misc{liu2026permabenchmarkingpersonalizedmemory, title={PERMA: Benchmarking Personalized Memory Agents via Event-Driven Preference and Realistic Task Environments}, author={Shuochen Liu and Junyi Zhu and Long Shu and Junda Lin and Yuhao Chen and Haotian Zhang and Chao Zhang and Derong Xu and Jia Li and Bo Tang and Zhiyu Li and Feiyu Xiong and Enhong Chen and Tong Xu}, year={2026}, eprint={2603.23231}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2603.23231}, }




