CUPID-Unverified

Hugging Face2025-08-01 更新2025-08-02 收录

下载链接：

https://huggingface.co/datasets/kixlab/CUPID-Unverified

下载链接

链接失效反馈

官方服务：

资源简介：

CUPID-Unverified是一个未经验证的、更大的对话数据集，用于评估和训练模型在个性化上下文对齐方面的能力。每个数据实例包含一个用户请求、八个之前的对话回合和一个未见的上下文偏好。数据集分为一致性、对比性和变化性三种类型，并包含丰富的上下文信息和用户偏好。

创建时间：

2025-07-31

原始信息汇总

数据集卡片：🏹 CUPID-Unverified (COLM 2025)

参考链接

主页: https://cupid.kixlab.org
代码库: https://github.com/kixlab/CUPID
基准测试: https://huggingface.co/datasets/kixlab/CUPID
论文: https://arxiv.org/abs/XXXX.XXXXX
联系人: taesoo.kim@kaist.ac.kr

数据集简介

🏹 CUPID-Unverified 是 CUPID 基准数据集的一个更大但未经验证的版本。每个数据实例包含：(a) 用户请求，(b) 从同一用户历史中提取的八个按时间顺序排列的多轮交互会话，(c) 模型需要推断和满足的未见上下文偏好。该数据集旨在支持模型训练或进一步分析。

数据集详情

数据集摘要

CUPID 包含均匀分为三种类型的实例：

一致型: 当前请求与先前交互会话共享相同的上下文和偏好。
对比型: 当前请求与先前交互会话共享相同的上下文和偏好，但存在一个具有相似上下文但偏好对比的先前交互会话。
变化型: 当前请求与先前交互会话共享相同的上下文，但偏好随时间变化。

每个实例包含：

1 个当前会话: 用户的新请求，加上黄金偏好字符串。
8 个先前会话: 多轮对话，隐含暴露用户的上下文偏好。

许可证: CC-BY-4.0 (允许商业和研究使用，需署名)。

数据结构

数据实例

实例结构示例如下： json { "persona_id": "193+research_mathematician", "instance_type": "contrastive", "current_request": "Help me develop the outline for the proof section of my paper for Dr. Chens review...", "current_context_factor": "Dr. Chen - Senior Faculty Advisor", "current_contextual_preference": "Every mathematical claim must be supported by exhaustive formal proofs...", "current_checklist": [ "Are all mathematical claims supported by proofs?", "..." ], "prior_interactions": [ { "context_factor": "Dr. Chen - Senior Faculty Advisor", "contextual_preference": "Every mathematical claim must be supported by exhaustive formal proofs...", "dialogue": [ { "role": "user", "content": "Help me revise my mathematical proof below for review by Dr. Chen..." }, ... ] }, ... ] }

数据字段

persona_id (str): 实例所属角色的标识符。
instance_type (str): 实例类型。
current_request (str): 用户当前或新的请求。
current_context_factor (str): 定义当前请求上下文的上下文因素。
current_contextual_preference (str): 用户在当前上下文因素下的上下文偏好。
current_checklist (List[str]): 表示当前上下文偏好细粒度方面的清单。
prior_interactions (List[Dict]): 用户和助手之间的先前交互会话列表，按时间顺序排列。每个会话包含：
- context_factor (str): 该交互会话的上下文因素。
- contextual_preference (str): 用户在该交互会话中的上下文偏好。
- dialogue (List[Dict]): 用户和助手之间的模拟对话消息列表。每条消息包含：
  - role (str): "user" 或 "assistant"。
  - content (str): 消息内容。

引用

BibTeX: bibtex @article{kim2025cupid, title = {CUPID: Evaluating Personalized and Contextualized Alignment of LLMs from Interactions}, author = {Kim, Tae Soo and Lee, Yoonjoo and Park, Yoonah and Kim, Jiho and Kim, Young-Ho and Kim, Juho}, journal = {arXiv preprint arXiv:XXXX.YYYYY}, year = {2025}, }

搜集汇总

数据集介绍

构建方式

在个性化人机交互研究领域，CUPID-Unverified数据集通过精心设计的构建流程展现了其学术价值。该数据集采用多阶段合成方法，从用户历史交互中提取八个按时间顺序排列的多轮对话会话，每个实例包含用户当前请求、上下文因素以及隐含的语境偏好。研究人员通过系统化标注流程，将实例划分为一致型、对比型和变化型三种类型，确保数据全面覆盖不同偏好演变场景。数据构建过程中严格遵循时间序列原则，早期交互会话置于数组前端，为时序分析提供可靠基础。

使用方法

该数据集为探索语境化偏好推理任务提供了标准化的使用范式。研究者可通过解析persona_id字段实现用户画像分析，利用instance_type分类开展差异化学术实验。当前请求字段与历史会话的对比分析，能够有效验证模型对隐性偏好的捕捉能力。数据集支持端到端的模型训练流程，开发者可将prior_interactions作为模型输入，current_contextual_preference作为监督信号，构建个性化的偏好预测系统。通过整合对话历史中的context_factor字段，可进一步探究上下文因素对用户偏好的影响机制。

背景与挑战

背景概述

CUPID-Unverified数据集由KAIST交互实验室（KIXLAB）于2025年推出，旨在推动个性化大语言模型（LLMs）的上下文感知能力研究。该数据集通过整合用户历史交互会话与当前请求，构建了包含一致性、对比性和变化性三种实例类型的多模态语料库，为核心研究问题——如何从时序交互中推断用户隐含的上下文偏好——提供了实证基础。作为COLM 2025基准测试的重要组成部分，其创新性地采用八轮历史对话作为上下文锚点，为可解释性用户建模领域设立了新的评估标准。

当前挑战

该数据集面临双重挑战：在领域问题层面，时序偏好漂移与多轮对话的噪声干扰导致模型难以准确捕捉动态变化的用户意图，而对比性实例中相似语境下相反偏好的识别更是增加了语义理解的复杂度；在构建技术层面，未验证数据的可靠性可能引入偏差，且长程对话依赖关系的标注需要消耗大量人工成本，历史会话与当前请求的语义对齐也缺乏客观评估指标。

常用场景

经典使用场景

在个性化对话系统的研究中，CUPID-Unverified数据集为模型训练提供了丰富的多轮对话上下文。该数据集通过捕捉用户在不同情境下的偏好变化，使得研究者能够构建能够动态适应用户需求的对话系统。经典使用场景包括模拟用户与AI助手的交互历史，从而训练模型识别和预测用户的潜在偏好。

解决学术问题

CUPID-Unverified数据集解决了对话系统中用户偏好建模的复杂性问题。通过提供包含一致、对比和变化三种类型的实例，该数据集帮助研究者深入探讨上下文偏好如何影响对话生成。其意义在于为个性化对话系统的评估提供了标准化基准，推动了对话系统在动态适应性和上下文感知方面的研究进展。

实际应用

在实际应用中，CUPID-Unverified数据集可用于开发智能助手，尤其是在需要高度个性化的场景中，如学术指导或专业咨询。通过分析用户的历史交互数据，智能助手能够更精准地理解用户需求，从而提供更具针对性的建议。这种能力在教育、医疗和客户服务等领域具有广泛的应用潜力。

数据集最近研究