argilla/ultrafeedback-binarized-preferences-cleaned-kto
收藏Hugging Face2024-03-19 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/argilla/ultrafeedback-binarized-preferences-cleaned-kto
下载链接
链接失效反馈官方服务:
资源简介:
UltraFeedback Binarized Preferences Cleaned KTO数据集是基于UltraFeedback Binarized Preferences Cleaned的KTO信号转换版本,推荐用于UltraFeedback的微调。数据集包含多个特征,如prompt、completion、label、model、average_rating和annotations等,其中annotations进一步细分为helpfulness、honesty、instruction_following和truthfulness等子特征。KTO方法在不同参数规模下的性能表现优异,能够处理极端数据不平衡,并且在某些情况下可以跳过监督微调直接使用KTO。
UltraFeedback Binarized Preferences Cleaned KTO数据集是基于UltraFeedback Binarized Preferences Cleaned的KTO信号转换版本,推荐用于UltraFeedback的微调。数据集包含多个特征,如prompt、completion、label、model、average_rating和annotations等,其中annotations进一步细分为helpfulness、honesty、instruction_following和truthfulness等子特征。KTO方法在不同参数规模下的性能表现优异,能够处理极端数据不平衡,并且在某些情况下可以跳过监督微调直接使用KTO。
提供机构:
argilla
原始信息汇总
数据集概述
数据集名称
- UltraFeedback Binarized Preferences Cleaned KTO
数据集特征
- prompt: 字符串类型
- completion: 字符串类型
- label: 布尔类型
- model: 字符串类型
- average_rating: 浮点数类型
- annotations: 结构化数据,包含以下子特征:
- helpfulness: 结构化数据,包含:
- Rating: 字符串类型
- Rationale: 字符串类型
- Rationale For Rating: 字符串类型
- Type: 字符串序列
- honesty: 结构化数据,包含:
- Rating: 字符串类型
- Rationale: 字符串类型
- instruction_following: 结构化数据,包含:
- Rating: 字符串类型
- Rationale: 字符串类型
- truthfulness: 结构化数据,包含:
- Rating: 字符串类型
- Rationale: 字符串类型
- Rationale For Rating: 字符串类型
- Type: 字符串序列
- helpfulness: 结构化数据,包含:
- source: 字符串类型
数据集分割
- train:
- 字节数: 673880007
- 示例数: 230720
数据集大小
- 下载大小: 226134542
- 数据集大小: 673880007
配置
- config_name: default
- data_files:
- split: train
- path: data/train-*
标签
- kto
- preference
- ultrafeedback
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,高质量偏好数据对模型对齐至关重要。该数据集基于广受认可的UltraFeedback Binarized Preferences Cleaned数据集构建,通过KTO(Kahneman-Tversky Optimization)信号转换方法进行重构。其核心构建逻辑是将原始数据集中的每个偏好对拆分为独立的示例,将二元偏好评分平均值转化为适用于KTO训练框架的布尔标签。这一过程不仅保留了原始数据中由多个大型语言模型生成并经过人工标注的响应,还通过结构化转换增强了数据在直接偏好优化替代范式下的可用性。
特点
该数据集在偏好学习领域展现出鲜明的技术特征。其数据架构包含提示、补全、布尔标签、模型来源及多维度人工评分注释,提供了丰富的元信息。尤为突出的是,它整合了有益性、诚实性、指令遵循性和真实性四个维度的细粒度人工评估,每个维度均包含评分与详细原理阐述。这种多维标注体系为模型对齐研究提供了超越简单二元偏好的深层信号,使得研究者能够探究不同对齐属性间的相互作用与权衡。
使用方法
该数据集主要应用于大型语言模型的直接对齐微调,尤其适配KTO训练范式。使用者可直接将其加载至支持HuggingFace数据集的训练流程中,利用其中的提示、补全及布尔标签进行损失计算。在实践应用中,建议研究者关注数据中提供的平均评分与多维度注释,这些信息可用于设计加权损失或进行可控生成分析。对于希望复现转换过程的研究者,项目提供了详细的Colab笔记本链接,便于深入理解从原始DPO格式到KTO格式的转换逻辑与实现细节。
背景与挑战
背景概述
在大型语言模型对齐技术快速演进的背景下,Argilla机构于2024年推出了UltraFeedback Binarized Preferences Cleaned KTO数据集。该数据集基于广受认可的UltraFeedback偏好数据,通过Kahneman-Tversky优化(KTO)信号转换方法重构而成,旨在为语言模型的直接偏好优化提供更高效的训练信号。其核心研究聚焦于探索超越传统DPO框架的轻量化对齐范式,通过利用二元化且清洗后的高质量人类反馈,推动模型在有用性、诚实性、遵循指令和真实性等多维度评估指标上的性能提升,对促进对齐研究的算法创新与数据高效利用具有显著影响力。
当前挑战
该数据集致力于解决大型语言模型与人类价值观对齐这一核心领域问题,其挑战在于如何从多维、细粒度的主观人类反馈中,构建出稳定且泛化性强的偏好信号,以指导模型生成既符合指令又安全可靠的文本。在构建过程中,挑战具体体现在将原始的复杂评分与注释体系转化为适用于KTO算法的二元标签,这一过程需精心处理数据不平衡问题,并确保转换后的信号能有效保留原始反馈中的细微语义差异,同时避免引入偏差或信息损失。
常用场景
经典使用场景
在大型语言模型对齐领域,该数据集为基于人类反馈的强化学习提供了高质量的偏好信号。其核心应用场景在于直接优化语言模型的生成行为,通过二值化偏好标注与KTO信号转换,模型能够从人类对回复在有用性、诚实性、指令遵循和真实性等多维度的评价中学习。这一过程摒弃了传统监督微调对精确标注回复的依赖,使模型在生成任务中更自然地贴合人类价值观与意图,成为当前对齐技术中高效且可扩展的训练范式。
实际应用
在实际部署中,该数据集被广泛用于定制化聊天助手、内容生成系统与代码辅助工具的伦理对齐。开发者可依据特定领域需求,利用其丰富的多维度评分与理由标注,对模型进行针对性微调,以提升生成内容的有用性与安全性。例如,在教育或客服场景中,模型能基于数据集中对诚实性与指令遵循的强调,输出更准确、可靠的回答,从而增强用户体验并降低有害或误导性内容产生的风险。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在高效对齐算法的探索与优化。受KTO论文启发,后续研究进一步验证了其在多种参数规模模型上的优越性,并催生了如无监督微调、极端数据鲁棒性训练等新方法。同时,该数据集也促进了开源社区对UltraFeedback系列数据的持续清理与增强,推动了如Argilla等平台在高质量人类反馈数据构建与标准化方面的协作,为对齐研究提供了可复现、可扩展的基准资源。
以上内容由遇见数据集搜集并总结生成



