PicPersona-TOD

Name: PicPersona-TOD
Creator: POSTECH（浦项科技大学）
Published: 2025-04-24 17:15:58
License: 暂无描述

arXiv2025-04-24 更新2025-04-26 收录

下载链接：

https://github.com/JihyunLee1/PicPersona

下载链接

链接失效反馈

官方服务：

资源简介：

PicPersona-TOD是一个新型面向任务对话数据集，它将用户图像作为个人的一部分，使得系统能够根据用户的特定因素，如年龄或情感背景，提供个性化的响应。该数据集通过用户的第一印象、对话策略指导的提示以及使用外部知识来减少幻觉。人类评估证实，该数据集增强了用户体验，个性化的响应为更吸引人的交互做出了贡献。此外，我们还介绍了一个新的NLG模型Pictor，它不仅能够个性化响应，而且在未见过的领域也表现出稳健的性能。

PicPersona-TOD is a novel task-oriented dialogue dataset that incorporates user images as part of user personas, enabling the system to generate personalized responses based on user-specific attributes such as age or emotional background. This dataset reduces hallucinations by leveraging first impressions of users, prompts guided by dialogue strategies, and external knowledge. Human evaluations confirm that this dataset enhances user experience, and personalized responses contribute to more engaging interactions. Additionally, we introduce a new NLG model named Pictor, which not only generates personalized responses but also exhibits robust performance in unseen domains.

提供机构：

POSTECH（浦项科技大学）

创建时间：

2025-04-24

原始信息汇总

PicPersona-TOD数据集概述

基本信息

数据集名称: PicPersona-TOD
用途: 用于在任务导向对话中基于图像人物信息生成个性化回复
发布状态: 已被NAACL 2025接受
作者: Jihyun Lee, Yejin Jeon, Seungyeon Seo, Gary Geunbae Lee

数据集内容

数据位置: /dataset/mwoz_sgd
数据特点: 包含用于个性化回复生成的图像人物信息

引用信息

引用文献: 待定(TBD)

联系方式

联系人邮箱: jihyunlee@postech.ac.kr

搜集汇总

数据集介绍

构建方式

PicPersona-TOD数据集的构建采用了多阶段自动化流程，首先从Flickr-Faces-HQ筛选符合中心构图要求的用户图像，并与MultiWOZ-2.2和SGD对话数据集进行跨模态对齐。通过GPT-4o实现图像情感分类与对话情感标签的匹配，采用对话策略引导的提示工程完成用户语句风格迁移（基于年龄、性别、情感等视觉特征）和系统响应个性化（包含基础个性化、问候个性化和推荐个性化三个层级）。为保障数据质量，构建了四重过滤机制：通过句向量距离阈值过滤个性化强度不足的样本，基于类别风格向量剔除异常个性化方向，结合对话状态跟踪标签验证语义一致性，最后利用大模型评估整体流畅度。

使用方法

该数据集支持端到端个性化对话系统开发，研究者可通过视觉-语言联合建模实现用户适配的响应生成。典型使用流程包括：1）利用预训练视觉编码器提取图像特征；2）结合对话历史与视觉特征进行个性化策略预测；3）基于检索增强生成技术合成符合用户特征的响应。基准模型Pictor采用LLaVA架构，通过LoRA微调在未见领域仍保持3.88/4的用户满意度。评估时需注意：个性化强度指标PS需＞2.5×IQR，推荐响应应通过余弦相似度验证与外部知识的一致性。数据集划分保留原始MultiWOZ的域分离特性，便于进行零样本迁移实验。

背景与挑战

背景概述

PicPersona-TOD数据集由韩国浦项科技大学的研究团队于2024年提出，旨在解决任务导向对话系统中响应风格单一、缺乏个性化的问题。该数据集创新性地将用户图像作为人物角色的一部分，通过第一印象识别、对话策略引导提示和外部知识整合等技术，生成适应年龄、情感等用户特征的个性化响应。作为首个融合视觉人物角色的任务导向对话数据集，其构建基于MultiWOZ-2.2和SGD两大基准数据集，并引入Google Maps评论和维基百科信息以增强响应真实性。该数据集的发布推动了对话系统从功能实现向人性化交互的范式转变，为人机交互中的情感计算和个性化建模提供了重要研究基础。

当前挑战

PicPersona-TOD面临的挑战主要体现在两个维度：在领域问题层面，需解决传统任务导向对话系统无法捕捉用户非语言线索（如微表情、着装风格）导致的响应同质化问题，同时要平衡个性化生成与信息准确性的矛盾；在构建过程中，技术挑战包括跨模态对齐（图像情感与对话情绪的匹配）、幻觉抑制（个性化推荐中的事实性错误），以及通过五级过滤机制确保风格强度、方向一致性和语义连贯性。特别值得注意的是，在零样本场景下将视觉人物角色泛化至未见过领域（如公交、家庭场景）时，仍需解决领域适应性与个性化保真度的权衡问题。

常用场景

经典使用场景

PicPersona-TOD数据集在任务导向对话（TOD）系统中被广泛用于生成个性化响应。通过结合用户图像作为人物角色的一部分，该数据集能够根据用户的年龄、情感背景等个性化因素生成定制化的对话内容。这一特性使得对话系统能够生成更加自然、个性化的响应，从而提升用户体验。

解决学术问题

PicPersona-TOD数据集解决了任务导向对话系统中响应单调、缺乏个性化的问题。通过引入视觉人物角色，该数据集能够生成更加符合用户个性化需求的对话内容，从而提升对话系统的自然性和用户满意度。此外，该数据集还通过外部知识（如Google Maps和Wikipedia）减少了幻觉生成，进一步提高了响应的准确性和可靠性。

实际应用

在实际应用中，PicPersona-TOD数据集可以用于客服系统、旅游咨询中心等场景，通过分析用户图像生成个性化的对话响应。例如，在客服系统中，系统可以根据用户的年龄和情感状态调整对话的正式程度和情感表达，从而提供更加贴心的服务。这一特性使得对话系统能够更好地适应用户的个性化需求，提升用户满意度。

数据集最近研究