five

PERMA

收藏
arXiv2026-03-24 更新2026-03-26 收录
下载链接:
https://github.com/PolarisLiu1/PERMA
下载链接
链接失效反馈
官方服务:
资源简介:
PERMA是由中国科学技术大学等机构联合构建的个性化记忆代理评测基准,旨在通过事件驱动的动态偏好建模和真实任务环境评估智能体的长期记忆一致性。数据集包含808条跨20个主题的事件记录,覆盖10国用户的多维度交互数据,总规模达1.8M tokens,采用两阶段生成流程构建:首先生成时间线事件描述,再转化为风格对齐的对话。其创新性体现在引入文本变异性和语言风格对齐机制,模拟现实场景中的噪声干扰和用户惯用语。该数据集主要应用于个性化AI代理开发,解决传统评估中静态偏好建模和跨会话依赖缺失的核心问题。

PERMA is a personalized memory agent evaluation benchmark jointly constructed by the University of Science and Technology of China and other institutions. It aims to evaluate the long-term memory consistency of AI agents through event-driven dynamic preference modeling and real task environments. The dataset includes 808 event records spanning 20 topics, covering multi-dimensional interaction data from users across 10 countries, with a total size of 1.8 million tokens. It is built via a two-stage generation pipeline: first generating timeline event descriptions, then converting them into style-aligned dialogues. Its innovation lies in introducing text variability and language style alignment mechanisms, which simulate noise interference and user idiomatic expressions in real-world scenarios. This dataset is primarily used for the development of personalized AI agents, addressing the core problems of static preference modeling and the lack of cross-session dependency in traditional evaluation approaches.
提供机构:
中国科学技术大学; 鲁汶大学·ESAT-PSI; 香港城市大学; 东北大学; MemTensor(上海)科技有限公司
创建时间:
2026-03-24
原始信息汇总

PERMA 数据集概述

数据集基本信息

  • 数据集名称:PERMA (Personalized Memory Agents Benchmark)
  • 核心目标:评估基于记忆系统的智能体在长期、现实的交互中跟踪和应用不断演变的用户偏好的能力。
  • 官方代码与数据仓库地址:https://github.com/PolarisLiu1/PERMA
  • 相关论文:https://arxiv.org/abs/2603.23231
  • 许可证:Apache 2.0

数据集核心特点

  • 事件驱动的个性化:包含多会话交互时间线,偏好在此过程中出现并演变。
  • 现实的查询噪声:包含文本变异性(如信息省略、上下文切换)。
  • 语言风格对齐:对话模式受现实用户-助手交互数据集启发。
  • 跨框架评估:支持评估多种记忆系统的统一评估协议。

评估协议

A. 多项选择评估

评估三个维度的细粒度认知能力:

  • 任务完成度 (T):衡量定义目标的完成情况。
  • 偏好一致性 (P):确保回答基于长期偏好,不产生无根据的幻觉推理。
  • 信息置信度 (I):识别模型是否保持决定性立场而不表现出不确定性。

B. 交互式评估

用户模拟器与被测记忆系统智能体之间的多轮模拟交互:

  • 模拟器可见黄金对话历史。
  • 核心指标包括 Turn-1Turn-2 成功率
  • 在对话时间线的不同时间间隔进行探测评估,以检查性能如何随着人物状态的积累和潜在漂移而演变。

实验设置与结果摘要

评估在单领域和多领域任务、清洁和噪声场景下进行。

A. 独立大语言模型 (多项选择准确率)

  • 推理模型:包括 MiniMax-M2.5, GLM-5, Kimi-K2.5。
  • 聊天模型:包括 Qwen3-32B, Qwen2.5-72B, Qwen2.5-14B-1M, Llama3.3-70B, Gemini2.5-Flash, GLM-4.7-Flash, GPT-4o-mini。
  • 报告了在清洁单领域、噪声单领域、清洁多领域、噪声多领域设置下的准确率。

B. 记忆系统

评估了多种记忆系统基线,包括:

  • RAG (BGE-M3)
  • MemOS
  • Mem0
  • Lightmem
  • Memobase
  • EverMemOS
  • Supermemory

评估指标

  • MCQ Acc.:多项选择任务准确率。
  • BERT-F1, Memory Score:记忆保真度。
  • Search Tokens, Search Duration:搜索效率。
  • Completion, User Tokens, Turn = 1, Turn ≤ 2:交互成功率。

结果表格详细列出了上述系统在清洁单领域、噪声单领域、清洁多领域任务下的各项指标表现。

数据与代码使用

依赖安装

  1. 克隆仓库并安装依赖: bash git clone https://github.com/PolarisLiu1/PERMA.git cd PERMA pip install -r requirements.txt

  2. code/src 目录下创建 .env 文件配置 API 密钥(如 OpenAI, Mem0 等)。

快速开始

  1. 生成基准对话: 使用 complete_dataset_generator.py 脚本生成标准数据集,可指定主题数量、是否多领域,并可选生成无噪声数据或应用特定对话风格。
  2. 运行评估: 使用 evaluation.py 脚本评估记忆框架(如 supermemory)。支持多种评估模式(baseline, rag, longcontext, incremental)和数据集类型(standard, long, long_multi)。

引用

如需使用本数据集或代码,请引用相关论文: bibtex @misc{liu2026permabenchmarkingpersonalizedmemory, title={PERMA: Benchmarking Personalized Memory Agents via Event-Driven Preference and Realistic Task Environments}, author={Shuochen Liu and Junyi Zhu and Long Shu and Junda Lin and Yuhao Chen and Haotian Zhang and Chao Zhang and Derong Xu and Jia Li and Bo Tang and Zhiyu Li and Feiyu Xiong and Enhong Chen and Tong Xu}, year={2026}, eprint={2603.23231}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2603.23231}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在个性化智能体研究领域,构建能够反映用户偏好动态演化的高质量对话数据集至关重要。PERMA数据集采用事件驱动的对话重构方法,通过两阶段生成流程构建。首先,基于真实用户画像与交互摘要,利用时间线生成智能体将用户兴趣领域分解为按时间顺序排列的事件序列,区分“涌现”与“补充”两类事件以模拟偏好的初次出现与后续细化。随后,对话生成智能体依据事件描述与目标,生成多轮自然对话,使偏好细节通过用户的反馈、修正等交互行为隐式呈现,而非静态声明。为确保真实性与挑战性,数据集注入了五种类型的会话内噪声以模拟模糊表达、语境切换等现实干扰,并引入基于真实语料库的语言风格对齐,以贴近用户实际表达方式。最终形成包含清洁、噪声及风格对齐长上下文三个版本的语料库,涵盖超过20个主题领域与1.8M令牌的丰富交互。
特点
PERMA数据集的核心特点在于其强调个性化记忆的纵向一致性评估,而非静态偏好匹配。数据集构建了跨越多个会话与领域的时序交互事件,其中偏好相关的查询随时间插入,模拟了真实世界中用户偏好逐步形成与累积的过程。其事件驱动的范式允许评估智能体在时间深度与跨领域干扰下维持连贯用户画像的能力。此外,数据集通过系统注入文本变异性与语言风格对齐,显著增强了评估的生态效度,涵盖了从信息省略、语境切换到多语言表达等多种现实交互噪声。数据集的评估协议设计全面,既包含基于多项选择题的一步检索测试,也引入了基于模拟用户的交互式评估,通过多轮反馈循环检验智能体在动态情境中的任务完成与偏好满足能力。
使用方法
PERMA数据集旨在系统评估大型语言模型及记忆增强智能体在长期个性化交互中的性能。研究人员可利用该数据集执行多种实验:首先,通过多项选择题任务,从任务完成度、偏好一致性与信息置信度三个维度量化模型在单次查询中检索并应用历史信息的能力。其次,借助集成的用户模拟器进行交互式评估,模拟真实的多轮对话场景,当智能体响应未满足偏好时,模拟器提供补充信息形成迭代反馈,直至任务成功完成,从而衡量智能体的持续适应与纠错能力。此外,数据集支持在对话时间线的不同位置设置评估检查点,以探究模型性能随交互历史增长与语义干扰增加的变化趋势。通过比较清洁、噪声及长上下文等不同设置下的结果,研究者能够深入分析记忆系统在应对现实复杂性、维持用户画像一致性方面的优势与局限。
背景与挑战
背景概述
PERMA数据集由刘硕晨、朱俊逸等研究人员于2024年提出,旨在解决个性化记忆代理在长期交互中的评估难题。该数据集由中国科学技术大学、KU Leuven等机构联合构建,核心研究问题聚焦于如何超越静态偏好匹配,评估智能体在事件驱动对话中维持动态用户画像一致性的能力。PERMA通过模拟跨会话、跨领域的时序交互事件,捕捉用户偏好的渐进演化,并引入文本变异性和语言风格对齐以逼近真实场景。该数据集推动了对话式AI从简单记忆检索向持续个性化建模的范式转变,为构建具备长期适应能力的智能体提供了关键基准。
当前挑战
PERMA数据集针对的领域挑战在于个性化记忆代理需在噪声环境中维持用户画像的时序一致性,而非仅完成静态偏好检索。具体而言,智能体必须从碎片化、模糊的对话事件中推断隐式偏好,并抵抗跨领域干扰与语境漂移。构建过程中的挑战包括:1)生成兼具时序逻辑与语言多样性的多轮对话,需通过两阶段生成与人工验证确保事件连贯性;2)注入真实交互噪声(如意图转移、多语言混杂)时,需平衡噪声的随机性与偏好信号的保真度;3)对齐用户查询与真实语料库(如WildChat)的语言风格,避免合成数据与自然表达的脱节。
常用场景
经典使用场景
在个性化智能代理领域,PERMA数据集通过事件驱动的对话历史重构,为评估长期记忆系统提供了经典场景。该数据集模拟真实用户在多轮交互中偏好逐渐形成与演化的过程,涵盖从旅行规划到娱乐推荐等二十余个领域,每个会话均以任务为导向,确保偏好信号通过反馈与修正自然浮现。这种设计使得PERMA成为测试代理在时序深度与跨域干扰下维持用户画像一致性的理想环境,尤其适用于验证记忆系统在噪声语境中提取隐性偏好的能力。
实际应用
PERMA的实际应用场景广泛覆盖个性化数字助手与终身学习代理系统。在智能客服领域,该数据集可训练代理理解用户历史交互中的隐性需求,减少重复询问;在教育陪伴应用中,它能支持代理根据学生长期学习偏好自适应调整内容推荐。此外,PERMA的噪声注入与语言风格对齐机制,为开发抗干扰的个性化记忆管理系统提供了验证平台,助力企业构建能够跨会话维持用户画像一致性的商用助手,提升交互效率与用户满意度。
衍生相关工作
PERMA的推出催生了多类围绕个性化记忆评估的衍生研究。例如,MemOS与Mem0等记忆操作系统借鉴其事件驱动范式,优化了记忆单元的声明周期管理;LightMem等轻量级记忆框架则利用PERMA的噪声设置验证压缩检索的效率。在学术层面,该数据集激发了如PersonaMem-v2等对隐性偏好建模的深入探索,以及KnowMe-Bench等叙事推理基准的构建。这些工作共同推动了从静态检索到动态人物状态维护的范式转变,深化了长时程个性化代理的理论与实践。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作