UPQA (User Preference Question Answering)

Name: UPQA (User Preference Question Answering)
Creator: 埃默里大学, 亚马逊
Published: 2025-12-16 02:58:15
License: 暂无描述

arXiv2025-12-16 更新2025-12-17 收录

下载链接：

https://model-editing.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

UPQA是由埃默里大学和亚马逊联合构建的短答案问答数据集，专为个性化模型编辑的标准化评估而设计。该数据集包含1000余条涵盖爱好、职业、家庭等多元主题的用户偏好数据，通过Claude-Sonnet-4生成四类难度递进的查询问题（直接提问、改写提问、隐含提问及产品推荐），并辅以语义关联的同义词簇增强鲁棒性。其创新性地从真实用户查询中构建评估场景，重点考察模型对用户特定事实的精准回忆与应用能力，填补了现有基准在信息检索任务上的空白。

UPQA is a short-answer question answering dataset jointly constructed by Emory University and Amazon, specifically designed for standardized evaluation of personalized model editing. This dataset contains over 1,000 user preference data entries covering diverse topics such as hobbies, occupations, and family matters. Four categories of progressively difficult query questions (direct questioning, paraphrased questioning, implicit questioning, and product recommendation) were generated via Claude-Sonnet-4, with semantically related synonym clusters added to enhance robustness. It innovatively constructs evaluation scenarios from real user queries, focusing on examining the model's ability to accurately recall and apply user-specific factual information, filling the gap in existing benchmarks for information retrieval tasks.

提供机构：

埃默里大学, 亚马逊

创建时间：

2025-12-16

搜集汇总

数据集介绍

构建方式

在个性化语言模型评估领域，UPQA数据集通过系统化方法构建而成。其基础源自Synthetic Persona Chat中的用户画像特征，这些特征编码了多样化的个人偏好。借助Claude-Sonnet-4模型，每个画像属性被转化为四种结构化查询类型：直接提问、语义转述、隐含问题及产品推荐问题，从而覆盖了从显式到隐式的多难度层级。为确保评估的均衡性，数据集中对属性类型进行了平衡采样，并进一步通过生成语义相近的词汇簇来增强数据的鲁棒性，以支持基于聚类的模型编辑方法。

使用方法

UPQA数据集主要用于评估个性化模型编辑方法的性能。研究者在应用编辑技术（如FT-M、ROME、LoRA等）后，将模型在该数据集上进行测试，以衡量其编辑效能与泛化能力。评估采用效能分数与泛化分数作为核心指标，分别衡量模型在直接偏好对齐及面对转述、隐含问题时的表现。数据集支持自动评估流程，通常结合字符串匹配与大型语言模型评判，以确保评分的准确性与一致性，从而为个性化方法的比较与优化提供标准化基准。

背景与挑战

背景概述

在大型语言模型（LLM）个性化研究领域，传统方法常面临计算成本高昂、数据依赖性强以及多轮对话中性能退化等挑战。为应对这些局限，UPQA（用户偏好问答）数据集应运而生，由埃默里大学与亚马逊的研究团队于2025年共同构建。该数据集的核心研究目标在于精准评估模型对用户特定偏好的记忆与应用能力，弥补了现有基准多依赖合成对话或风格模仿、而忽视信息检索任务的不足。通过从真实场景用户查询中构建的短答案问答形式，UPQA为个性化方法的标准化评估提供了重要基础，推动了模型编辑技术在个性化任务中的应用与发展。

当前挑战

UPQA数据集致力于解决个性化领域中的核心问题，即模型如何准确回忆并应用用户特定偏好，尤其在面对隐式查询或多轮交互时保持稳定性。构建过程中的挑战主要体现在数据采集与标注的复杂性上：需要从异构用户资料中提取结构化偏好，并生成涵盖直接提问、改写问题、隐式问题及产品推荐等多种难度层次的查询，以确保评估的全面性与现实性。此外，数据还需经过语义聚类增强，以捕捉用户偏好的词汇变体，这对标注的一致性与计算资源的优化提出了较高要求。

常用场景

经典使用场景

在大型语言模型个性化研究领域，UPQA数据集作为一项精心构建的短答案问答基准，其经典使用场景在于系统评估模型对用户特定偏好的记忆与应用能力。该数据集通过涵盖显式偏好查询、隐式偏好推理及产品推荐等多种问题类型，为研究者提供了一个标准化测试平台，用以衡量不同个性化方法在准确召回用户档案信息方面的效能。相较于传统基于合成对话的评估方式，UPQA直接模拟真实人机交互情境，使得模型性能的评测更具现实意义与可靠性。

解决学术问题

UPQA数据集的构建旨在解决个性化研究中长期存在的关键学术问题，即如何精准评估模型对用户偏好的持久记忆与上下文应用能力。传统基准往往侧重于风格模仿或合成对话，忽视了信息检索任务中基于事实的准确回忆需求。该数据集通过引入结构化问答格式与不同难度层级，有效填补了这一评估空白，使得研究者能够量化分析模型在应对隐式查询、多轮对话干扰以及偏好泛化等方面的表现，从而推动个性化技术向更高效、更鲁棒的方向演进。

实际应用

在实际应用层面，UPQA数据集为开发能够深度理解并适应用户个性化需求的人工智能助手提供了关键评估工具。例如，在智能客服、个性化内容推荐及健康咨询等场景中，模型需要准确记忆用户的饮食禁忌、兴趣爱好或职业背景，并在后续交互中提供一致且相关的回应。通过UPQA的评测，开发者可以优化模型编辑、微调或提示工程等策略，确保个性化系统在真实部署中能够稳定维护用户偏好，提升服务满意度与信任度。

数据集最近研究