CUPID-Unverified
收藏数据集卡片:🏹 CUPID-Unverified (COLM 2025)
参考链接
- 主页: https://cupid.kixlab.org
- 代码库: https://github.com/kixlab/CUPID
- 基准测试: https://huggingface.co/datasets/kixlab/CUPID
- 论文: https://arxiv.org/abs/XXXX.XXXXX
- 联系人: taesoo.kim@kaist.ac.kr
数据集简介
🏹 CUPID-Unverified 是 CUPID 基准数据集的一个更大但未经验证的版本。每个数据实例包含:(a) 用户请求,(b) 从同一用户历史中提取的八个按时间顺序排列的多轮交互会话,(c) 模型需要推断和满足的未见上下文偏好。该数据集旨在支持模型训练或进一步分析。
数据集详情
数据集摘要
CUPID 包含均匀分为三种类型的实例:
- 一致型: 当前请求与先前交互会话共享相同的上下文和偏好。
- 对比型: 当前请求与先前交互会话共享相同的上下文和偏好,但存在一个具有相似上下文但偏好对比的先前交互会话。
- 变化型: 当前请求与先前交互会话共享相同的上下文,但偏好随时间变化。
每个实例包含:
- 1 个当前会话: 用户的新请求,加上黄金偏好字符串。
- 8 个先前会话: 多轮对话,隐含暴露用户的上下文偏好。
许可证: CC-BY-4.0 (允许商业和研究使用,需署名)。
数据结构
数据实例
实例结构示例如下: json { "persona_id": "193+research_mathematician", "instance_type": "contrastive", "current_request": "Help me develop the outline for the proof section of my paper for Dr. Chens review...", "current_context_factor": "Dr. Chen - Senior Faculty Advisor", "current_contextual_preference": "Every mathematical claim must be supported by exhaustive formal proofs...", "current_checklist": [ "Are all mathematical claims supported by proofs?", "..." ], "prior_interactions": [ { "context_factor": "Dr. Chen - Senior Faculty Advisor", "contextual_preference": "Every mathematical claim must be supported by exhaustive formal proofs...", "dialogue": [ { "role": "user", "content": "Help me revise my mathematical proof below for review by Dr. Chen..." }, ... ] }, ... ] }
数据字段
persona_id(str): 实例所属角色的标识符。instance_type(str): 实例类型。current_request(str): 用户当前或新的请求。current_context_factor(str): 定义当前请求上下文的上下文因素。current_contextual_preference(str): 用户在当前上下文因素下的上下文偏好。current_checklist(List[str]): 表示当前上下文偏好细粒度方面的清单。prior_interactions(List[Dict]): 用户和助手之间的先前交互会话列表,按时间顺序排列。每个会话包含:context_factor(str): 该交互会话的上下文因素。contextual_preference(str): 用户在该交互会话中的上下文偏好。dialogue(List[Dict]): 用户和助手之间的模拟对话消息列表。每条消息包含:role(str):"user"或"assistant"。content(str): 消息内容。
引用
BibTeX: bibtex @article{kim2025cupid, title = {CUPID: Evaluating Personalized and Contextualized Alignment of LLMs from Interactions}, author = {Kim, Tae Soo and Lee, Yoonjoo and Park, Yoonah and Kim, Jiho and Kim, Young-Ho and Kim, Juho}, journal = {arXiv preprint arXiv:XXXX.YYYYY}, year = {2025}, }




