PERSONACONVBENCH
收藏arXiv2025-05-20 更新2025-05-22 收录
下载链接:
https://huggingface.co/datasets/PERSONABench/PERSONA-Bench
下载链接
链接失效反馈官方服务:
资源简介:
PERSONACONVBENCH是一个大规模基准数据集,旨在评估大型语言模型在多轮对话中的个性化推理和生成能力。该数据集涵盖了10个不同的Reddit领域,包含19,215个帖子,超过111,239次对话,涉及3,878个用户。数据集设计包括三种核心任务:句子分类、影响回归和用户为中心的文本生成,这些任务能够系统地分析个性化对话环境如何影响LLM的输出。通过释放PERSONACONVBENCH,研究人员和从业者可以研究和开发适应个体对话风格、追踪长期上下文并生成更丰富、更具吸引力的响应的技术。
提供机构:
University of Southern California, Adobe Research, University of California, San Diego, Intel AI Research, University of Maryland, College Park, Vanderbilt University, Virginia Polytechnic Institute and State University, University of Notre Dame, University of Oregon, University of Illinois Chicago, Arizona State University
创建时间:
2025-05-20
搜集汇总
数据集介绍

构建方式
PERSONACONVBENCH数据集的构建基于Reddit平台的多用户、多轮对话数据,采用严格的筛选标准确保数据质量。首先,通过Reddit开发者API爬取选定领域的帖子,筛选参与用户数大于4且作者回复数不少于4的对话。随后,根据任务需求对数据进行分类处理:情感分类任务选取具有显著情感倾向的回复,影响预测任务保留带有社区反馈分数的消息,而文本生成任务则直接采用用户的最新回复。所有数据均以时间顺序组织,形成用户特定的对话轨迹,确保上下文连贯性和个性化特征。
特点
该数据集的核心特点在于深度融合个性化与对话结构,包含10个多样化领域的19,215个帖子及111,239组对话。其创新性体现在三个方面:首先采用图结构表示多用户对话关系,支持复杂交互分析;其次设计情感分类、影响预测和文本生成三大任务,形成30种数据集配置;最后通过用户轨迹集(Cu)机制,将长期历史对话与即时上下文结合,为研究语言模型在真实场景中的个性化适应能力提供多维评估基准。实验表明,引入对话历史能使模型在情感分类任务中获得198%的性能提升。
使用方法
使用该数据集时需遵循三步流程:首先根据任务类型(分类/回归/生成)加载对应的对话轨迹和用户历史;其次构建包含演示样例的上下文提示模板,将目标消息的前序对话与用户跨轨迹历史整合;最后通过零样本提示或微调方式评估模型性能。关键注意事项包括:严格遵循时间顺序防止数据泄露,分类任务采用准确率/F1/MCC指标,回归任务使用RMSE/MAE,生成任务则综合ROUGE、BLEU和SBERT等指标。数据集支持研究对话结构对个性化建模的影响,以及长期用户历史在多轮交互中的作用。
背景与挑战
背景概述
PERSONACONVBENCH是由南加州大学、Adobe Research等机构的研究团队于2025年推出的首个面向个性化多轮对话的大规模评测基准。该数据集聚焦于大型语言模型在个性化推理与生成任务中的表现,通过整合Reddit平台上10个不同领域的19,215个帖子和111,239组对话,构建了包含3,878名用户的个性化对话轨迹。其核心创新在于首次将个性化建模与多轮对话结构相结合,设计了情感分类、影响力预测和个性化回复生成三大任务,填补了现有研究将两者割裂处理的空白。该基准通过图结构建模复杂的多用户互动关系,为开发具有用户自适应能力的对话系统提供了重要研究平台,在个性化AI助手、客户服务等应用场景具有显著影响力。
当前挑战
该数据集主要面临三方面挑战:在领域问题上,需解决个性化对话建模中用户风格捕捉与长期上下文追踪的难题,现有方法往往难以平衡即时语境与用户历史行为;在对话结构方面,多用户参与的复杂对话树结构对模型的关系推理能力提出更高要求;在构建过程中,数据采集需处理Reddit平台的非结构化对话流,涉及跨分支回复链的精确重建,同时要确保用户隐私保护和数据去标识化。此外,社区反馈分数的预测任务存在外部因素干扰,如投票习惯等隐含变量增加了回归建模的难度。
常用场景
经典使用场景
PERSONACONVBENCH数据集在个性化对话系统研究中扮演着关键角色,尤其适用于评估大型语言模型在多轮对话中理解和生成个性化响应的能力。该数据集通过整合用户历史对话轨迹和即时对话上下文,为研究者提供了模拟真实社交平台交互场景的理想测试平台。在经典使用场景中,研究人员通常利用其丰富的多领域对话数据(涵盖艺术、科技等10个Reddit社区)来测试模型在情感分类、影响力预测和后续文本生成三个核心任务上的表现,其中对话图谱结构和时序标记的引入使得对用户个性化特征的建模更为精准。
解决学术问题
该数据集有效解决了对话系统中个性化建模与多轮上下文理解割裂的研究难题。通过将19,215个帖子的111,239条对话结构化表示为时序图谱,研究者能够系统分析个性化历史如何影响语言模型输出,这在传统单轮或用户无关的对话基准中难以实现。其实验结果表明,引入个性化对话历史可使情感分类任务相对性能提升198%,验证了用户历史与即时上下文协同建模的学术价值,为开发具有长期记忆和风格适应能力的对话AI提供了理论依据。
衍生相关工作
该数据集已催生多个个性化对话研究的经典工作,如结合低秩自适应(LoRA)的个性化微调框架PersonalLLM、基于图谱检索的PGraphRAG方法等。后续研究LongLaMP将其扩展至长文本生成场景,而PersoBench则专注于人格一致性评估。这些衍生工作共同推动了对话系统从通用响应向用户感知范式的转变,相关成果在ACL、EMNLP等顶会上形成系列研究脉络。
以上内容由遇见数据集搜集并总结生成



