PERMA
收藏Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://huggingface.co/datasets/ustclsc/PERMA
下载链接
链接失效反馈官方服务:
资源简介:
PERMA 是一个用于评估个性化记忆代理在用户偏好随时间演变的长时对话中的表现的基准数据集。该数据集支持两种互补的评估协议:多选评估(用于细粒度能力探测)和交互式评估(用于真实助手工作流中的多轮任务成功)。数据集结构包括用户偏好配置文件、任务文件和评估文件,组织为单域/多域、干净/噪声和时间检查点等任务设置。PERMA 旨在测试记忆代理是否能跟踪长期演变的用户偏好、在真实查询噪声和上下文切换中保持稳健,并在完成实际助手任务时保持人物一致性。数据集适用于个性化助手响应生成、长对话历史和多选问答等任务,采用 Apache-2.0 许可证发布。
创建时间:
2026-03-28
搜集汇总
数据集介绍

构建方式
在个性化记忆代理研究领域,PERMA数据集的构建遵循严谨的生成范式。其核心方法植根于种子数据集,通过结构化用户偏好档案与事件时间线,生成了包含长期对话上下文的任务实例。数据生成过程特别注重对话风格的对齐,借鉴了WildChat语料库的切片,以确保交互的自然性与真实性。此外,数据集引入了事件驱动的偏好演化机制,并模拟了现实任务环境中的查询噪声与上下文切换,从而系统性地构建了用于评估记忆代理在动态偏好下保持人格一致性的复杂场景。
特点
PERMA数据集展现出多维度评估的鲜明特点。它摒弃了静态检索的评估模式,转而强调对随时间演化用户偏好的追踪能力。数据集架构支持两种互补的评估协议:精细化的多项选择题评估,用于探测任务完成度、偏好一致性与信息置信度;以及模拟真实工作流程的交互式评估,衡量多轮对话的任务成功率。其数据组织并非采用固定的训练/验证/测试划分,而是依据任务类型、时间阶段与噪声设置进行灵活配置,为研究提供了高度可定制的实验环境。
使用方法
使用PERMA数据集进行评测与研究,需遵循其提供的标准化流程。研究者可通过官方GitHub仓库获取完整的评估脚本,运行多项选择题探测或交互式评估。数据集结构清晰,包含用户偏好档案、长上下文任务文件及评估元数据,便于直接加载与分析。对于希望扩展数据集的研究者,仓库中亦提供了基于种子数据生成更多合成对话的代码与流水线,支持使用不同大语言模型进行数据扩充,从而满足训练与更广泛研究的需求。
背景与挑战
背景概述
在人工智能领域,个性化智能体研究致力于开发能够理解并适应用户长期偏好与需求的系统。PERMA基准数据集于2026年由Shuochen Liu等研究人员提出,旨在评估个性化记忆智能体在长程对话中追踪用户偏好动态演变的能力。该数据集聚焦于事件驱动的偏好演化问题,要求模型在真实交互噪声下维持人物角色一致性,从而推动个性化助手在任务完成、偏好一致性与信息可信度方面的研究进展,为长上下文记忆与检索系统的评估提供了标准化框架。
当前挑战
PERMA数据集所针对的核心挑战在于解决个性化助手在长程交互中难以持续追踪动态偏好并保持角色一致性的问题。具体而言,模型需在用户偏好随时间演变的复杂场景中,克服上下文切换与查询噪声带来的干扰,实现精准的记忆检索与偏好落地。在数据构建过程中,挑战体现为如何基于种子数据集生成高质量、时序有序的长对话上下文,并设计支持多选问答与交互式评估的协议,以模拟真实任务环境中的多轮成功交互。
常用场景
经典使用场景
在个性化人工智能助手领域,PERMA数据集为评估长期对话中用户偏好动态演化的记忆代理提供了标准化基准。其核心应用场景聚焦于模拟现实世界交互,要求模型在跨越多个时间点的复杂对话序列中,持续追踪并整合用户随时间变化的需求与倾向,例如从航班偏好到阅读习惯的迁移。通过设计包含事件驱动偏好演化和交互噪声的对话上下文,该数据集能够系统地检验智能体在长视野任务中维持人物角色一致性与任务完成度的能力。
解决学术问题
PERMA数据集旨在解决个性化人工智能研究中几个关键挑战:如何使模型在长期互动中有效追踪动态演变的用户偏好,而非依赖静态检索;如何在存在现实对话噪声与上下文切换的情况下,保持智能体的人物角色一致性;以及如何权衡记忆检索的质量与计算成本。该数据集通过提供结构化的用户档案、时序对话和评估检查点,为研究长上下文偏好建模、稳健的记忆机制以及个性化助手在复杂任务环境中的表现,建立了可复现的实证基础,推动了该领域从静态配置向动态适应范式的转变。
衍生相关工作
PERMA数据集的构建继承并拓展了多个相关领域的经典工作。其对话风格对齐借鉴了WildChat数据集的切片,而结构化用户偏好建模则受到了PersonaLens数据集的启发。在评估协议设计上,它融合了MemOS等记忆系统研究中对长期一致性和检索效率的考量。基于PERMA,后续研究可进一步探索更高效的动态记忆编码架构、针对偏好演变的增量学习算法,以及在多模态交互中整合长期个性化记忆的新方法,持续推动个性化智能体向更自然、更理解用户的方向发展。
以上内容由遇见数据集搜集并总结生成



