Creative Rubrics Preferences
收藏arXiv2025-06-13 更新2025-06-17 收录
下载链接:
https://huggingface.co/datasets/vicgalle/creative-rubrics-preferences
下载链接
链接失效反馈官方服务:
资源简介:
本数据集名为“Creative Rubrics Preferences”,由Komorebi AI Technologies创建,包含900条样本。数据集利用合成生成的偏好数据,这些数据基于细粒度的评分标准,用于定义诸如写作风格等期望属性。数据集的创建过程包括定义评分标准、生成评分条件下的文本、系统提示的生成以及构建偏好对。该数据集用于训练语言模型,使其能够根据明确的、人类可解释的指令动态调整其行为,无需重新训练。数据集的应用领域为AI对齐,旨在解决语言模型与人类偏好、行为和安全协议的对齐问题。
提供机构:
Komorebi AI Technologies, Madrid, Spain
创建时间:
2025-06-13
原始信息汇总
数据集概述:creative-rubrics-preferences
基本信息
- 语言: 英语 (en)
- 许可证: Apache 2.0
- 数据规模: 小于1K样本 (n<1K)
- 任务类型: 文本生成 (text-generation)
- 标签: dpo, preferences, creative, gpt-4.5, o3-mini, R1
数据集内容
- 特征:
- model: 字符串类型,表示生成文本的模型
- prompt: 字符串类型,表示生成文本的提示
- chosen: 字符串类型,表示被选中的生成文本
- rejected: 字符串类型,表示被拒绝的生成文本
- qualifier: 字符串类型,表示生成文本的限定条件
- 数据分割:
- train: 包含900个样本,大小为4647924字节
数据集用途
- 用于微调自定义写作风格的任务
- 基于论文《Configurable Preference Tuning with Rubric-Guided Synthetic Data》的研究
相关资源
- 论文链接: https://huggingface.co/papers/2506.11702
- 代码仓库: https://github.com/vicgalle/configurable-preference-tuning
- 相关数据集: https://huggingface.co/datasets/vicgalle/creative-rubrics-gpt-4.5-o3-R1
示例
- 电影评论示例: 关于《疯狂动物城》的摄影风格评论,风格华丽且富有创意
- 天气预报示例: 描述一个拥有五个太阳的星球的天气预报,风格荒诞且富有想象力
搜集汇总
数据集介绍

构建方式
Creative Rubrics Preferences数据集的构建采用了创新的Configurable Preference Tuning (CPT)框架,通过结构化、细粒度的评分标准(rubrics)生成多样化的合成偏好数据。首先定义了一系列评分标准,每个标准详细描述了LLM响应的特定属性或风格,如“正式性”、“创造性”或“安全级别”。随后,利用教师模型生成符合不同评分目标的响应,并通过自然语言指令形式的系统提示(system prompts)总结这些评分标准。最后,通过构建基于评分的偏好对,生成了用于DPO(Direct Preference Optimization)训练的数据集。
特点
该数据集的核心特点在于其动态可配置性和细粒度控制能力。通过结构化评分标准生成的系统提示,数据集能够捕捉多样化的偏好配置,从而支持模型在推理时根据具体指令调整行为。数据集涵盖了从传统到非传统风格的广泛谱系,例如极度荒谬或华丽巴洛克风格,为研究提供了丰富的实验基础。此外,合成数据的生成方式确保了偏好对的多样性和可控性,同时避免了为每种新配置重新进行人工标注的高成本。
使用方法
Creative Rubrics Preferences数据集主要用于训练和评估支持动态偏好配置的语言模型。研究人员可通过加载数据集,结合DPO等偏好优化方法对基础模型进行微调。在推理阶段,用户只需提供与特定评分标准匹配的系统提示,模型即可生成符合目标风格的响应,无需重新训练。该数据集还支持与Best-of-N采样等技术结合使用,进一步提升生成质量。实验表明,经该数据集微调的模型在风格控制任务中表现出显著的性能提升。
背景与挑战
背景概述
Creative Rubrics Preferences数据集由Komorebi AI Technologies的Víctor Gallego团队于2025年提出,旨在解决大型语言模型(LLMs)在人类反馈对齐中的静态偏好限制问题。该数据集通过结构化、细粒度的评分标准(rubrics)生成合成偏好数据,支持可配置偏好调整(CPT)框架的开发。CPT框架使LLMs能够根据显式的、人类可理解的指令动态调整其行为,而无需针对每个新配置重新训练。这一创新不仅提升了模型输出的细粒度控制能力,还为AI对齐领域提供了更灵活、透明的解决方案,推动了个性化、上下文相关的语言模型发展。
当前挑战
Creative Rubrics Preferences数据集面临的核心挑战包括:1) 领域问题方面,传统偏好模型假设单一静态偏好,难以捕捉人类偏好的动态性、上下文依赖性和多面性,限制了模型的适应性和可控性;2) 构建过程中,依赖强教师模型生成符合评分标准的合成数据,可能引入模型固有偏见;评分标准的设计和系统提示的总结需要大量领域专业知识;确保生成响应与多样化评分目标和复杂评分标准的一致性具有显著难度。这些挑战需要通过技术创新和严格验证来解决,以实现可靠、可扩展的偏好配置。
常用场景
经典使用场景
在自然语言处理领域,Creative Rubrics Preferences数据集为研究者提供了探索动态偏好调整的独特平台。该数据集通过结构化评分标准生成合成偏好数据,使大型语言模型能够根据人类可理解的指令动态调整输出风格。其经典应用场景包括文本风格迁移、个性化内容生成以及多维度写作质量评估,尤其在需要细粒度控制生成文本风格的学术研究中展现出独特价值。
解决学术问题
该数据集有效解决了传统偏好优化方法中静态偏好假设的局限性问题。通过引入可配置的评分标准体系,研究者能够建模更符合实际的人类动态偏好,突破了过去依赖单一、固化偏好模型的约束。这在语言模型对齐研究中具有重要意义,为探索多维度、可解释的偏好建模提供了新的方法论基础,推动了可控文本生成领域的发展。
衍生相关工作
该数据集已衍生出多项重要研究工作,包括基于评分标准的强化学习偏好优化框架、多维度风格控制系统等。相关成果推动了可控文本生成技术的发展,如后续研究者提出的动态偏好适应算法、可组合风格控制系统等,这些工作都建立在该数据集提供的结构化偏好表示基础之上。
以上内容由遇见数据集搜集并总结生成



