Columbia-NLP/DPO-UltraFeedback_binarized

Name: Columbia-NLP/DPO-UltraFeedback_binarized
Creator: Columbia-NLP
Published: 2024-07-10 16:06:15
License: 暂无描述

Hugging Face2024-07-10 更新2024-07-06 收录

下载链接：

https://hf-mirror.com/datasets/Columbia-NLP/DPO-UltraFeedback_binarized

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从HuggingFaceH4/ultrafeedback_binarized数据集重新格式化而来，主要用于训练LION-series模型。数据集包含了prompt、prompt_id、chosen、rejected、messages等特征，并且包含了详细的注释信息。数据集被分为train_prefs和test_prefs两个部分，分别包含60700和1988个样本。重新格式化过程中，恢复了原始UltraFeedback数据集的元数据信息，并删除了chosen和rejected相同的行。

The dataset includes multiple fields such as prompt, prompt_id, chosen, rejected, messages, etc., each with detailed subfields and data types. Additionally, the dataset contains scores (score_chosen and score_rejected) and other information (other_info), which includes multiple nested structures such as ratings, critiques, fine-grained scores, etc. The dataset is divided into a training set (train_prefs) and a test set (test_prefs), with data sizes and example counts provided. The dataset is reformatted from HuggingFaceH4/ultrafeedback_binarized to support the training of the LION series models.

提供机构：

Columbia-NLP

原始信息汇总

数据集概述

数据集信息

特征

prompt: 字符串类型
prompt_id: 字符串类型
chosen: 列表类型
- content: 字符串类型
- role: 字符串类型
rejected: 列表类型
- content: 字符串类型
- role: 字符串类型
messages: 列表类型
- content: 字符串类型
- role: 字符串类型
score_chosen: 浮点数类型
score_rejected: 浮点数类型
other_info: 结构体类型
- chosen_annotations: 结构体类型
  - annotations: 结构体类型
    - helpfulness: 结构体类型
      - Rating: 字符串类型
      - Rationale: 字符串类型
      - Rationale For Rating: 字符串类型
      - Type: 序列类型
    - honesty: 结构体类型
      - Rating: 字符串类型
      - Rationale: 字符串类型
    - instruction_following: 结构体类型
      - Rating: 字符串类型
      - Rationale: 字符串类型
    - truthfulness: 结构体类型
      - Rating: 字符串类型
      - Rationale: 字符串类型
      - Rationale For Rating: 字符串类型
      - Type: 序列类型
  - critique: 字符串类型
  - fine_grained_score: 浮点数类型
  - model: 字符串类型
  - overall_score: 浮点数类型
- correct_answers: 序列类型
- incorrect_answers: 序列类型
- rejected_annotations: 结构体类型
  - annotations: 结构体类型
    - helpfulness: 结构体类型
      - Rating: 字符串类型
      - Rationale: 字符串类型
      - Rationale For Rating: 字符串类型
      - Type: 序列类型
    - honesty: 结构体类型
      - Rating: 字符串类型
      - Rationale: 字符串类型
    - instruction_following: 结构体类型
      - Rating: 字符串类型
      - Rationale: 字符串类型
    - truthfulness: 结构体类型
      - Rating: 字符串类型
      - Rationale: 字符串类型
      - Rationale For Rating: 字符串类型
      - Type: 序列类型
  - critique: 字符串类型
  - fine_grained_score: 浮点数类型
  - model: 字符串类型
  - overall_score: 浮点数类型
- source: 字符串类型

数据分割

train_prefs:
- 字节数: 611362021
- 样本数: 60700
test_prefs:
- 字节数: 19925514
- 样本数: 1988

数据集大小

下载大小: 326639729
数据集大小: 631287535

配置

default:
- train_prefs: data/train_prefs-*
- test_prefs: data/test_prefs-*

搜集汇总

数据集介绍

构建方式

在语言模型对齐研究领域，构建高质量偏好数据集是优化模型行为的关键。DPO-UltraFeedback_binarized数据集源于对现有公开资源的深度重构，其核心构建逻辑在于对原始UltraFeedback数据集进行精炼与增强。具体而言，研究团队通过精确匹配提示词，从原始数据中恢复了丰富的元数据信息，包括详细的注释与来源，并将其整合至`other_info`字段中。为确保偏好对的质量与区分度，构建过程移除了所有“选中”与“拒绝”响应完全相同的样本，此举从训练集中剔除了435条记录，从测试集中剔除了12条记录，从而提升了数据集的纯净度与训练信号的有效性。

特点

该数据集在偏好学习领域展现出鲜明的结构化特征，其设计旨在服务于直接偏好优化等先进算法。数据集的架构围绕明确的偏好对比展开，每条样本均包含一个提示词、一个被选中的优质回复序列以及一个被拒绝的次优回复序列，并辅以量化的分数差异。尤为突出的是，数据集内嵌了多维度的细粒度人工注释，涵盖帮助性、诚实性、指令遵循性和真实性等多个评估维度，为模型行为的深度分析与对齐提供了宝贵的洞察。这种结合了二元偏好信号与丰富解释性元数据的复合特征，使其成为探究模型价值对齐机制的理想实验平台。

使用方法

该数据集主要应用于语言模型的直接偏好优化训练阶段，是LION系列模型训练流程中的核心组成部分。使用者可通过加载标准化的数据分割，直接将其应用于DPO损失函数的计算。在具体操作中，模型将学习区分由`chosen`字段标识的优质响应与由`rejected`字段标识的次优响应。数据集提供的`score_chosen`与`score_rejected`可作为额外的监督信号。此外，研究人员可利用`other_info`中详尽的注释信息进行深入的错误分析与模型行为归因，从而指导训练策略的调整与优化，推动模型生成更安全、更有帮助且更符合人类价值观的输出。

背景与挑战

背景概述

在大型语言模型对齐技术快速演进的背景下，哥伦比亚大学自然语言处理实验室于2024年推出了DPO-UltraFeedback_binarized数据集。该数据集源自公开的UltraFeedback数据集，并经过重构以适配直接偏好优化（DPO）训练流程。其核心研究目标在于通过高质量、大规模的人类偏好数据，解决语言模型与人类价值观和意图对齐的复杂问题，为LION系列模型的训练提供了关键数据支撑，显著提升了模型在遵循指令、诚实性和帮助性等方面的性能，推动了开源对齐技术的发展。

当前挑战

该数据集旨在应对语言模型对齐领域的关键挑战，即如何从海量、多维度的反馈中精准学习人类复杂且主观的偏好。构建过程中的主要挑战包括：其一，数据清洗与整合，需从原始UltraFeedback数据中精确匹配并恢复元数据与细粒度标注信息；其二，质量过滤，必须剔除其中‘被选择’与‘被拒绝’响应完全相同的无效样本，以确保偏好对比的有效性，这一过程在训练集和测试集中分别移除了435和12个样本。这些步骤对数据的一致性与训练信号的清晰度提出了极高要求。

常用场景

经典使用场景

在自然语言处理领域，偏好对齐已成为提升大语言模型与人类价值观一致性的核心范式。DPO-UltraFeedback_binarized数据集通过提供海量经过人工标注的偏好对比样本，为直接偏好优化算法提供了标准化的训练资源。该数据集将每个提示对应的模型回复划分为优选和劣选两类，并附带细致的多维评分注释，使得研究者能够基于明确的偏好信号训练模型，从而引导模型生成更符合人类期望的文本。

衍生相关工作

该数据集直接催生了哥伦比亚NLP实验室的LION系列模型，这些模型通过包含SFT、DPO和在线偏好学习的三阶段优化流程，展现了卓越的性能。相关研究论文与开源代码库为社区提供了完整的可复现范例。此外，其数据构建格式已成为后续众多偏好学习数据集的参考标准，激励了更多围绕UltraFeedback原始数据展开的深入分析和模型微调工作，持续丰富着对齐技术的研究生态。

数据集最近研究