ustclsc/PERMA
收藏Hugging Face2026-03-28 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/ustclsc/PERMA
下载链接
链接失效反馈官方服务:
资源简介:
---
pretty_name: PERMA Benchmark
language:
- en
license: apache-2.0
---
# PERMA
## TL;DR
PERMA is a benchmark for evaluating **personalized memory agents** in long-horizon conversations where user preferences evolve over time.
Instead of static retrieval, models must track **event-driven preference evolution** and maintain persona consistency under realistic interaction noise.
This dataset supports two complementary evaluation protocols:
- **Multiple-choice evaluation** for granular capability probing (task completion, preference consistency, informational confidence).
- **Interactive evaluation** for multi-turn task success in realistic assistant workflows.
## Supported Tasks
- Personalized assistant response generation under evolving user preferences.
- Multiple-choice QA over long dialogue history and dynamic persona states.
- Memory retrieval and preference grounding in realistic task environments.
The benchmark is introduced in:
- **PERMA: Benchmarking Personalized Memory Agents via Event-Driven Preference and Realistic Task Environments**
https://arxiv.org/abs/2603.23231
## Dataset Structure
The dataset is organized as:
- `WildChat-1M/`: style source slices used for conversational style alignment.
- `profile/`: user preference profiles and task metadata per user.
- `tasks/`: benchmark task instances with long context dialogues and checkpoints.
- `evaluation/`: evaluation artifacts and meta files for single-domain and multi-domain settings.
## Data Instances
### 1) Profile files
`profile/<user_id>/profile.json` contains structured affinities, for example:
- domain preferences (e.g., Flights, Hotels, Books, Media, Events)
- fine-grained slots (e.g., seat preference, preferred airline, reading format)
### 2) Task files
`tasks/<user_id>/input_data_*.json` includes:
- `task_id`, `task_goal`, `relevant_domain`
- long `context` consisting of temporally ordered user-assistant dialogues
- checkpoints for probing memory and preference consistency
### 3) Evaluation files
`evaluation/<user_id>/meta/overall/*.json` typically includes:
- `question`, `task_description`, `task_goal`
- candidate `options` for MCQ evaluation
- `gold_label`
## Data Splits
The PERMA benchmark is organized by task settings (single-domain / multi-domain, clean / noisy, and temporal checkpoints) rather than a single fixed train/validation/test convention.
Users can construct protocol-specific splits based on:
- task type (SD/MD) - Single-domain/Multi-domain
- temporal stage (`*_1`, `*_2`, `*_3`)
- noise setting
## Dataset Creation
### Curation Rationale
PERMA is built to test whether memory-enabled agents can:
- track evolving user preferences over long timelines,
- remain robust under realistic query noise and context switching,
- preserve persona consistency while completing practical assistant tasks.
### Source Data
- Conversational style alignment is inspired by WildChat slices in `WildChat-1M/`.
- Structured preference profiles and event timelines are used to generate task contexts.
- Evaluation artifacts are produced to support both MCQ probing and interactive success-rate evaluation.
## Considerations for Using the Data
### Intended Use
- Benchmarking memory systems and LLM agents for personalized assistance.
- Research on long-context preference tracking and persona consistency.
- Evaluation of retrieval-memory tradeoffs (quality vs. search cost/time).
## Licensing Information
This dataset is released under the **Apache-2.0** license.
## Citation
```bibtex
@misc{liu2026permabenchmarkingpersonalizedmemory,
title={PERMA: Benchmarking Personalized Memory Agents via Event-Driven Preference and Realistic Task Environments},
author={Shuochen Liu and Junyi Zhu and Long Shu and Junda Lin and Yuhao Chen and Haotian Zhang and Chao Zhang and Derong Xu and Jia Li and Bo Tang and Zhiyu Li and Feiyu Xiong and Enhong Chen and Tong Xu},
year={2026},
eprint={2603.23231},
archivePrefix={arXiv},
primaryClass={cs.AI},
url={https://arxiv.org/abs/2603.23231}
}
```
## Acknowledgement
We sincerely thank [Personalens](https://github.com/amazon-science/PersonaLens) and [MemOS](https://github.com/MemTensor/MemOS) for their valuable work. Their pioneering work has provided important foundations for our research.
提供机构:
ustclsc
搜集汇总
数据集介绍

构建方式
在个性化智能体研究领域,PERMA数据集的构建旨在模拟真实场景中用户偏好的动态演变过程。其构建方法融合了多源数据,通过从WildChat-1M中提取对话风格片段进行风格对齐,并基于结构化用户偏好档案与事件时间线生成长期对话上下文。数据生成过程注重事件驱动的偏好演化,在任务实例中嵌入了时序检查点,以支持对记忆一致性进行细粒度评估。整个构建流程强调在引入现实交互噪声与语境切换的背景下,检验智能体跟踪偏好与维持人物一致性的能力。
特点
PERMA数据集的核心特征在于其专注于长视野对话中个性化记忆的评估。该数据集通过事件驱动的偏好演化机制,模拟了用户偏好随时间推移而产生的自然变化,而非静态设定。数据集提供了互补的双重评估协议:多项选择题评估用于对任务完成度、偏好一致性与信息置信度进行细粒度能力探测;交互式评估则支持在多轮真实助理工作流程中衡量任务成功率。此外,数据集结构按任务设置(如单领域/多领域、清洁/噪声环境)灵活组织,而非固定划分,为研究提供了高度可配置的评估框架。
使用方法
使用PERMA数据集时,研究者可依据具体评估目标灵活构建数据划分。典型应用包括对个性化记忆代理进行基准测试,探究长上下文偏好追踪与人物一致性保持的算法。在多项选择题评估模式下,模型需基于长对话历史与动态人物状态选择正确答案;在交互式评估中,则需在模拟的真实任务环境中进行多轮对话,以完成既定目标并保持偏好一致性。数据集支持对记忆检索质量与搜索成本之间的权衡进行研究,为开发更鲁棒、更个性化的对话系统提供实证基础。
背景与挑战
背景概述
在人工智能与对话系统研究领域,个性化记忆代理的发展正成为提升智能助手长期交互能力的关键。PERMA基准数据集于2026年由研究团队提出,旨在评估智能体在用户偏好随时间演化的长程对话中,如何有效追踪事件驱动的偏好变化,并在现实交互噪声下维持人物一致性。该数据集通过结构化用户档案与多轮任务情境,为核心研究问题——即动态偏好建模与稳健记忆检索——提供了系统化的评估框架,对推动个性化助理系统的实用化进程具有显著影响力。
当前挑战
PERMA数据集所针对的领域挑战在于,传统静态检索方法难以适应长时程对话中用户偏好的动态演变,智能体需在复杂任务环境中实现精准的偏好跟踪与一致性维护。在构建过程中,数据集面临如何从真实对话数据中提取并模拟事件驱动的偏好演化轨迹,以及如何在多领域任务设置下平衡噪声注入与评估信度的双重挑战,这些均对数据标注与任务设计提出了较高要求。
常用场景
经典使用场景
在个性化人工智能助理的研究领域中,PERMA数据集为评估长期对话中个性化记忆代理的性能提供了标准化的测试平台。该数据集通过模拟用户偏好随时间演化的复杂场景,要求模型在长程对话历史中追踪事件驱动的偏好变化,并维持人物角色的一致性。经典使用场景包括在单领域或多领域任务设置下,对代理进行多轮交互评估,以检验其在噪声环境和上下文切换中的稳健性,从而推动记忆增强型对话系统的发展。
解决学术问题
PERMA数据集旨在解决个性化记忆代理研究中的核心学术问题,特别是长时程对话中用户偏好动态演化的建模挑战。它通过结构化偏好档案和时序检查点,为评估模型在事件驱动偏好跟踪、人物角色一致性保持以及现实噪声鲁棒性方面提供了系统化框架。该数据集弥补了传统静态检索方法的不足,促进了记忆检索与偏好基础之间的权衡研究,为人工智能在个性化服务领域的理论探索与算法创新奠定了实证基础。
衍生相关工作
PERMA数据集的推出衍生了一系列相关经典工作,特别是在个性化记忆代理和长程对话建模领域。它借鉴并扩展了PersonaLens和MemOS等先驱研究的成果,为后续研究提供了统一的评估协议。基于该数据集,学者们开展了关于事件驱动偏好建模、记忆检索效率优化以及多领域任务泛化能力的研究,这些工作进一步丰富了人工智能在个性化记忆与对话系统方面的理论体系与应用实践。
以上内容由遇见数据集搜集并总结生成



