Columbia-NLP/DPO-UltraFeedback_binarized
收藏Hugging Face2024-07-10 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/Columbia-NLP/DPO-UltraFeedback_binarized
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从HuggingFaceH4/ultrafeedback_binarized数据集重新格式化而来,主要用于训练LION-series模型。数据集包含了prompt、prompt_id、chosen、rejected、messages等特征,并且包含了详细的注释信息。数据集被分为train_prefs和test_prefs两个部分,分别包含60700和1988个样本。重新格式化过程中,恢复了原始UltraFeedback数据集的元数据信息,并删除了chosen和rejected相同的行。
The dataset includes multiple fields such as prompt, prompt_id, chosen, rejected, messages, etc., each with detailed subfields and data types. Additionally, the dataset contains scores (score_chosen and score_rejected) and other information (other_info), which includes multiple nested structures such as ratings, critiques, fine-grained scores, etc. The dataset is divided into a training set (train_prefs) and a test set (test_prefs), with data sizes and example counts provided. The dataset is reformatted from HuggingFaceH4/ultrafeedback_binarized to support the training of the LION series models.
提供机构:
Columbia-NLP
原始信息汇总
数据集概述
数据集信息
特征
- prompt: 字符串类型
- prompt_id: 字符串类型
- chosen: 列表类型
- content: 字符串类型
- role: 字符串类型
- rejected: 列表类型
- content: 字符串类型
- role: 字符串类型
- messages: 列表类型
- content: 字符串类型
- role: 字符串类型
- score_chosen: 浮点数类型
- score_rejected: 浮点数类型
- other_info: 结构体类型
- chosen_annotations: 结构体类型
- annotations: 结构体类型
- helpfulness: 结构体类型
- Rating: 字符串类型
- Rationale: 字符串类型
- Rationale For Rating: 字符串类型
- Type: 序列类型
- honesty: 结构体类型
- Rating: 字符串类型
- Rationale: 字符串类型
- instruction_following: 结构体类型
- Rating: 字符串类型
- Rationale: 字符串类型
- truthfulness: 结构体类型
- Rating: 字符串类型
- Rationale: 字符串类型
- Rationale For Rating: 字符串类型
- Type: 序列类型
- helpfulness: 结构体类型
- critique: 字符串类型
- fine_grained_score: 浮点数类型
- model: 字符串类型
- overall_score: 浮点数类型
- annotations: 结构体类型
- correct_answers: 序列类型
- incorrect_answers: 序列类型
- rejected_annotations: 结构体类型
- annotations: 结构体类型
- helpfulness: 结构体类型
- Rating: 字符串类型
- Rationale: 字符串类型
- Rationale For Rating: 字符串类型
- Type: 序列类型
- honesty: 结构体类型
- Rating: 字符串类型
- Rationale: 字符串类型
- instruction_following: 结构体类型
- Rating: 字符串类型
- Rationale: 字符串类型
- truthfulness: 结构体类型
- Rating: 字符串类型
- Rationale: 字符串类型
- Rationale For Rating: 字符串类型
- Type: 序列类型
- helpfulness: 结构体类型
- critique: 字符串类型
- fine_grained_score: 浮点数类型
- model: 字符串类型
- overall_score: 浮点数类型
- annotations: 结构体类型
- source: 字符串类型
- chosen_annotations: 结构体类型
数据分割
- train_prefs:
- 字节数: 611362021
- 样本数: 60700
- test_prefs:
- 字节数: 19925514
- 样本数: 1988
数据集大小
- 下载大小: 326639729
- 数据集大小: 631287535
配置
- default:
- train_prefs: data/train_prefs-*
- test_prefs: data/test_prefs-*
搜集汇总
数据集介绍

构建方式
在语言模型对齐研究领域,构建高质量偏好数据集是优化模型行为的关键。DPO-UltraFeedback_binarized数据集源于对现有公开资源的深度重构,其核心构建逻辑在于对原始UltraFeedback数据集进行精炼与增强。具体而言,研究团队通过精确匹配提示词,从原始数据中恢复了丰富的元数据信息,包括详细的注释与来源,并将其整合至`other_info`字段中。为确保偏好对的质量与区分度,构建过程移除了所有“选中”与“拒绝”响应完全相同的样本,此举从训练集中剔除了435条记录,从测试集中剔除了12条记录,从而提升了数据集的纯净度与训练信号的有效性。
特点
该数据集在偏好学习领域展现出鲜明的结构化特征,其设计旨在服务于直接偏好优化等先进算法。数据集的架构围绕明确的偏好对比展开,每条样本均包含一个提示词、一个被选中的优质回复序列以及一个被拒绝的次优回复序列,并辅以量化的分数差异。尤为突出的是,数据集内嵌了多维度的细粒度人工注释,涵盖帮助性、诚实性、指令遵循性和真实性等多个评估维度,为模型行为的深度分析与对齐提供了宝贵的洞察。这种结合了二元偏好信号与丰富解释性元数据的复合特征,使其成为探究模型价值对齐机制的理想实验平台。
使用方法
该数据集主要应用于语言模型的直接偏好优化训练阶段,是LION系列模型训练流程中的核心组成部分。使用者可通过加载标准化的数据分割,直接将其应用于DPO损失函数的计算。在具体操作中,模型将学习区分由`chosen`字段标识的优质响应与由`rejected`字段标识的次优响应。数据集提供的`score_chosen`与`score_rejected`可作为额外的监督信号。此外,研究人员可利用`other_info`中详尽的注释信息进行深入的错误分析与模型行为归因,从而指导训练策略的调整与优化,推动模型生成更安全、更有帮助且更符合人类价值观的输出。
背景与挑战
背景概述
在大型语言模型对齐技术快速演进的背景下,哥伦比亚大学自然语言处理实验室于2024年推出了DPO-UltraFeedback_binarized数据集。该数据集源自公开的UltraFeedback数据集,并经过重构以适配直接偏好优化(DPO)训练流程。其核心研究目标在于通过高质量、大规模的人类偏好数据,解决语言模型与人类价值观和意图对齐的复杂问题,为LION系列模型的训练提供了关键数据支撑,显著提升了模型在遵循指令、诚实性和帮助性等方面的性能,推动了开源对齐技术的发展。
当前挑战
该数据集旨在应对语言模型对齐领域的关键挑战,即如何从海量、多维度的反馈中精准学习人类复杂且主观的偏好。构建过程中的主要挑战包括:其一,数据清洗与整合,需从原始UltraFeedback数据中精确匹配并恢复元数据与细粒度标注信息;其二,质量过滤,必须剔除其中‘被选择’与‘被拒绝’响应完全相同的无效样本,以确保偏好对比的有效性,这一过程在训练集和测试集中分别移除了435和12个样本。这些步骤对数据的一致性与训练信号的清晰度提出了极高要求。
常用场景
经典使用场景
在自然语言处理领域,偏好对齐已成为提升大语言模型与人类价值观一致性的核心范式。DPO-UltraFeedback_binarized数据集通过提供海量经过人工标注的偏好对比样本,为直接偏好优化算法提供了标准化的训练资源。该数据集将每个提示对应的模型回复划分为优选和劣选两类,并附带细致的多维评分注释,使得研究者能够基于明确的偏好信号训练模型,从而引导模型生成更符合人类期望的文本。
衍生相关工作
该数据集直接催生了哥伦比亚NLP实验室的LION系列模型,这些模型通过包含SFT、DPO和在线偏好学习的三阶段优化流程,展现了卓越的性能。相关研究论文与开源代码库为社区提供了完整的可复现范例。此外,其数据构建格式已成为后续众多偏好学习数据集的参考标准,激励了更多围绕UltraFeedback原始数据展开的深入分析和模型微调工作,持续丰富着对齐技术的研究生态。
数据集最近研究
最新研究方向
在大型语言模型对齐领域,DPO-UltraFeedback_binarized数据集正推动着基于人类反馈的强化学习技术向更精细、更高效的方向演进。该数据集源自UltraFeedback,通过结构化标注恢复了详尽的元数据,为模型训练提供了多维度的人类偏好信号,包括帮助性、诚实性、指令遵循和真实性等关键评估维度。当前研究前沿聚焦于利用此类高质量、大规模偏好数据,结合序列打包、损失掩码及在线偏好学习等优化技术,构建端到端的模型对齐管道。以LION系列模型为代表的实证研究表明,通过扩展偏好数据集规模并实施在线DPO训练,能够显著提升语言模型的综合性能,甚至超越依赖闭源数据与算法的官方指令模型。这一进展不仅验证了公开数据与透明方法在模型对齐中的巨大潜力,也为开源社区的可复现性研究树立了重要标杆,深刻影响着高效、可信赖人工智能系统的开发路径。
以上内容由遇见数据集搜集并总结生成



