mlabonne/orpo-dpo-mix-40k-flat

Name: mlabonne/orpo-dpo-mix-40k-flat
Creator: mlabonne
Published: 2024-06-07 10:19:22
License: 暂无描述

Hugging Face2024-06-07 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/mlabonne/orpo-dpo-mix-40k-flat

下载链接

链接失效反馈

官方服务：

资源简介：

ORPO-DPO-mix-40k-flat数据集专为ORPO或DPO训练设计，由多个高质量DPO数据集组合而成，包括Capybara-Preferences、distilabel-intel-orca-dpo-pairs、ultrafeedback-binarized-preferences-cleaned等。数据集应用了基于规则的过滤来移除特定内容，如gptisms。此外，数据集包含一个旨在促使模型回答非法问题的毒性数据集（toxic-dpo-v0.2），并提供了移除该部分数据的方法。

提供机构：

mlabonne

原始信息汇总

数据集概述

数据集名称

ORPO-DPO-mix-40k-flat

数据集描述

该数据集专为ORPO或DPO训练设计。
包含原始文本而非字典列表，便于在Axolotl中解析，特别是对于DPO。

数据集组成

数据来源：
- argilla/Capybara-Preferences: 7,424 samples
- argilla/distilabel-intel-orca-dpo-pairs: 2,299 samples
- argilla/ultrafeedback-binarized-preferences-cleaned: 22,799 samples
- argilla/distilabel-math-preference-dpo: 2,181 samples
- unalignment/toxic-dpo-v0.2: 541 samples
- M4-ai/prm_dpo_pairs_cleaned: 7,958 samples
- jondurbin/truthy-dpo-v0.1: 1,016 samples
过滤处理：应用基于规则的过滤以移除选定答案中的gptisms（2,206样本）。

数据集特征

特征名称：
- source
- chosen
- rejected
- prompt
- system
- question
数据类型：均为字符串类型。

数据集分割

训练集：
- 样本数量：44,245
- 数据大小：155,571,619字节
- 下载大小：86,089,921字节

使用示例

DPO数据集使用：在Axolotl中使用ChatML的示例配置。
ORPO数据集使用：推荐使用mlabonne/orpo-dpo-mix-40k。

注意事项

数据集包含一个设计用于提示模型回答非法问题的数据集（toxic-dpo-v0.2），可通过特定代码过滤移除。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，偏好对齐数据集对于提升大语言模型的输出质量至关重要。ORPO-DPO-mix-40k-flat数据集通过精心整合多个高质量开源偏好数据集构建而成，其核心方法是从七个经过严格筛选的源数据集中抽取样本，包括Capybara-Preferences、distilabel-intel-orca-dpo-pairs、ultrafeedback-binarized-preferences-cleaned等。构建过程中，对每个源数据集均设定了明确的分数阈值以选取高质量样本，例如要求被选答案的评分不低于5分或9分，并对数学推理数据集排除了GSM8K相关样本。此外，还应用了基于规则的过滤机制，专门移除了被选答案中可能存在的GPT风格表达，确保了数据的纯净性与独特性。

特点

该数据集在偏好学习领域展现出鲜明的技术特征，其最突出的特点在于采用了扁平化的文本存储格式，与常见的字典列表结构相比，这种设计显著简化了在Axolotl等训练框架中的解析流程，尤其便于直接偏好优化方法的实施。数据集涵盖了多样化的任务场景与内容主题，从通用对话、数学推理到真实性判断，甚至包含了旨在测试模型对非法问题响应能力的毒性数据，为研究者提供了全面的偏好对齐实验平台。每个样本均清晰标注了来源、提示、系统指令、问题以及被选与拒绝的答复，结构规整且信息完整，支持灵活的数据筛选与定制化使用。

使用方法

针对大语言模型的偏好对齐训练，该数据集提供了明确的使用路径。对于直接偏好优化训练，用户可借助Axolotl等配置化训练框架，在配置文件中指定数据集路径并设置聊天模板为ChatML格式，即可便捷地加载并进行训练。若采用ORPO方法进行训练，则建议使用其原始版本数据集以获得更佳适配性。值得注意的是，数据集中包含的毒性数据子集可能引导模型回应非法提问，研究者若需排除该部分影响，可通过简单的过滤操作，依据样本的source字段移除对应来源的数据，从而实现对训练数据内容的精确控制，满足不同安全性与研究目标的需求。

背景与挑战

背景概述

在大型语言模型（LLM）的优化领域，偏好对齐技术如直接偏好优化（DPO）和相对偏好优化（ORPO）已成为提升模型与人类价值观一致性的关键手段。mlabonne/orpo-dpo-mix-40k-flat数据集由研究人员mlabonne于近期构建，旨在整合多个高质量偏好数据集，为模型训练提供统一的文本格式支持。该数据集融合了来自argilla、unalignment等机构的七个子集，覆盖了从通用对话到数学推理的多样化任务，其核心研究问题在于通过高效的数据融合与清洗，解决传统偏好对齐中数据质量参差不齐的瓶颈，从而推动对齐方法的标准化与可复现性，对强化学习从人类反馈（RLHF）领域的发展具有显著的促进作用。

当前挑战

该数据集致力于应对偏好对齐任务中的核心挑战，即如何确保模型在复杂场景下生成既符合人类偏好又保持安全与真实的响应。具体而言，挑战体现在两个方面：其一，在领域问题层面，偏好对齐需平衡模型的性能与安全性，例如在整合毒性数据时可能引发伦理风险，这要求数据构建者进行精细的过滤与标注；其二，在构建过程中，数据集融合面临格式异构性与质量一致性的难题，如原始数据中的GPT风格表达需通过规则过滤移除，且不同子集的评分标准差异要求严格的阈值筛选，以确保最终样本的可靠性与训练效果。

常用场景

经典使用场景

在大型语言模型对齐与优化领域，ORPO-DPO-mix-40k-flat数据集为研究者提供了高质量的偏好数据对，专门用于支持ORPO和DPO等基于偏好的强化学习训练范式。该数据集通过整合多个经过严格筛选的高质量子集，构建了包含数万条“优选-劣选”响应对的语料库，为模型微调提供了丰富的监督信号。其经典应用场景在于，研究人员可利用这些标注数据，直接训练语言模型学习人类偏好，从而引导模型生成更符合人类价值观和意图的文本输出。

衍生相关工作

围绕该数据集所整合的丰富偏好数据，已催生了一系列重要的衍生研究工作。其直接支撑了ORPO等新型对齐算法的验证与性能提升研究。同时，该数据集作为高质量基准，常被用于比较不同偏好学习算法的优劣，推动了DPO、KTO等方法的迭代与优化。此外，基于其构建的模型微调流程，如与Axolotl等训练框架的结合，已成为社区中训练定制化对齐模型的经典范例，促进了开源大模型对齐技术的普及与发展。

数据集最近研究