PERSONAMEM
收藏arXiv2025-04-19 更新2025-04-23 收录
下载链接:
https://github.com/bowen-upenn/PersonaMem
下载链接
链接失效反馈官方服务:
资源简介:
PERSONAMEM数据集由宾夕法尼亚大学创建,包含超过180个模拟用户-LLM交互历史,每个历史包含多达60个会话的多人对话,跨越15个现实世界任务,需要个性化。数据集旨在评估LLM聊天机器人根据用户配置文件的当前状态选择最合适响应的能力。
The PERSONAMEM dataset was created by the University of Pennsylvania. It contains over 180 simulated user-LLM interaction histories, with each consisting of multi-party dialogues with up to 60 conversational turns across 15 real-world tasks that require personalization. This dataset is designed to evaluate the ability of LLM chatbots to select the most appropriate responses based on the current state of user profiles.
提供机构:
宾夕法尼亚大学
创建时间:
2025-04-19
搜集汇总
数据集介绍

构建方式
PERSONAMEM数据集通过模块化数据生成流程构建,利用GPT-4o生成模拟用户与LLM的多轮对话历史。该流程首先从PersonaHub中抽取用户角色,并扩展其静态和动态属性,包括人口统计信息和随时间变化的偏好。随后,基于这些角色生成时间戳标记的事件序列,涵盖15个需要个性化的真实任务场景。每个对话会话通过拓扑排序按时间顺序连接,形成长达1M token的交互历史,确保用户偏好的动态演变得到准确反映。
使用方法
使用PERSONAMEM时,研究者需提供完整的用户-LLM交互历史作为输入,评估模型在给定情境下选择最符合用户当前状态响应的能力。评估分为判别式和生成式两种设置:前者要求模型从四个候选答案中选择最佳选项,后者通过计算序列概率生成响应。数据集支持对模型长文本理解、动态偏好追踪及跨场景个性化推理能力的系统测评,特别适用于研究外部记忆模块(如RAG)对个性化任务的影响。
背景与挑战
背景概述
PERSONAMEM是由宾夕法尼亚大学和微软的研究团队于2025年提出的一个基准数据集,旨在评估大型语言模型(LLMs)在动态用户画像和个性化响应方面的能力。该数据集包含180多个模拟用户与LLM的交互历史,每个历史包含多达60个多轮对话会话,覆盖15个需要个性化的现实任务。PERSONAMEM的核心研究问题是评估LLMs如何利用用户交互历史来(1)内化用户的固有特征和偏好,(2)跟踪用户画像和偏好的动态演变,以及(3)在新场景中生成相应的个性化响应。这一数据集对推动个性化对话系统的发展具有重要影响力,尤其是在用户画像动态演变的复杂场景中。
当前挑战
PERSONAMEM面临的挑战主要包括两个方面:领域问题的挑战和构建过程中的挑战。在领域问题方面,数据集旨在解决LLMs在动态用户画像和个性化响应中的三大挑战:如何有效内化用户特征、跟踪偏好演变以及在新场景中生成个性化响应。实验表明,即使是前沿模型如GPT-4.1和Gemini-2.0,其整体准确率也仅为50%左右,尤其在生成新建议和跨场景泛化方面表现较差。在构建过程中,挑战包括生成长上下文对话的复杂性、确保用户画像的动态演变逻辑一致性,以及设计多样化的任务场景和查询类型。此外,数据集的规模和质量控制也需要在成本效益和评估需求之间取得平衡。
常用场景
经典使用场景
在个性化对话系统的研究中,PERSONAMEM数据集被广泛应用于评估大型语言模型(LLMs)如何利用用户历史交互信息来生成个性化响应。该数据集通过模拟多轮对话和用户偏好的动态变化,为研究者提供了一个标准化的测试平台,以验证模型在记忆用户特征、跟踪偏好演变以及生成情境化响应方面的能力。
解决学术问题
PERSONAMEM数据集解决了LLMs在个性化交互中的三个核心问题:如何有效地内化用户的固有特征和偏好,如何跟踪用户画像和偏好的动态演变,以及如何在新情境中生成相应的个性化响应。通过提供丰富的用户交互历史和标注的问题类型,该数据集为研究社区提供了一个量化模型个性化能力的基准,推动了用户感知型聊天机器人的发展。
实际应用
在实际应用中,PERSONAMEM数据集可用于开发和优化个性化推荐系统、心理健康咨询助手以及智能客服等场景。例如,在电子商务平台中,基于该数据集训练的模型能够根据用户的历史购买记录和偏好变化,提供更精准的商品推荐,从而提升用户体验和满意度。
数据集最近研究
最新研究方向
随着大型语言模型(LLM)在个性化助手领域的广泛应用,PERSONAMEM数据集的提出为评估LLM在动态用户画像和个性化响应生成方面的能力提供了重要基准。该数据集通过模拟多轮对话历史,涵盖了15种现实任务场景,旨在考察模型如何内化用户特征、追踪偏好演变并生成情境化响应。前沿研究聚焦于解决模型在长上下文理解中的信息丢失问题,特别是在用户偏好动态更新时的适应性挑战。当前GPT-4.5、Gemini-1.5等顶尖模型在多项选择题设置中仅达到52%准确率,突显了在跨场景知识迁移和实时偏好整合方面的技术瓶颈。该数据集通过模块化对话生成管道和百万级token上下文支持,为开发真正具备用户感知能力的对话系统提供了可扩展的评估框架,相关成果已推动检索增强生成(RAG)等记忆模块在个性化任务中的创新应用。
相关研究论文
- 1Know Me, Respond to Me: Benchmarking LLMs for Dynamic User Profiling and Personalized Responses at Scale宾夕法尼亚大学 · 2025年
以上内容由遇见数据集搜集并总结生成



