mlabonne/orpo-dpo-mix-40k

Name: mlabonne/orpo-dpo-mix-40k
Creator: mlabonne
Published: 2024-06-07 10:20:46
License: 暂无描述

Hugging Face2024-06-07 更新2024-04-19 收录

下载链接：

https://hf-mirror.com/datasets/mlabonne/orpo-dpo-mix-40k

下载链接

链接失效反馈

官方服务：

资源简介：

ORPO-DPO-mix-40k数据集专为ORPO或DPO训练设计，结合了多个高质量的DPO数据集，包括`argilla/Capybara-Preferences`、`argilla/distilabel-intel-orca-dpo-pairs`、`argilla/ultrafeedback-binarized-preferences-cleaned`、`argilla/distilabel-math-preference-dpo`、`unalignment/toxic-dpo-v0.2`、`M4-ai/prm_dpo_pairs_cleaned`和`jondurbin/truthy-dpo-v0.1`。数据集应用了基于规则的过滤来去除选中的答案中的gptisms，并添加了`question`列以确保与DPO和ORPO格式的兼容性。数据集中还包含一个旨在促使模型回答非法问题的数据集（`toxic-dpo-v0.2`），用户可以选择移除该部分内容。

ORPO-DPO-mix-40k数据集专为ORPO与DPO训练任务设计，汇聚了多套高质量DPO数据集，包括`argilla/Capybara-Preferences`、`argilla/distilabel-intel-orca-dpo-pairs`、`argilla/ultrafeedback-binarized-preferences-cleaned`、`argilla/distilabel-math-preference-dpo`、`unalignment/toxic-dpo-v0.2`、`M4-ai/prm_dpo_pairs_cleaned`及`jondurbin/truthy-dpo-v0.1`。该数据集通过基于规则的过滤流程，剔除了被选中答案中的GPT式冗余表达（gptisms），并新增`question`列以保障与DPO及ORPO训练格式的兼容性。数据集内还包含一款用于引导模型应答非法问题的数据集（`toxic-dpo-v0.2`），用户可根据需求移除该部分数据。

提供机构：

mlabonne

原始信息汇总

数据集概述

基本信息

名称: ORPO-DPO-mix-40k
版本: v1.1
语言: 英语
许可证: Apache-2.0
任务类别: 文本生成

数据集特征

source: 字符串类型
chosen: 列表类型，包含
- content: 字符串类型
- role: 字符串类型
rejected: 列表类型，包含
- content: 字符串类型
- role: 字符串类型
prompt: 字符串类型

数据集划分

训练集:
- 大小: 206434378.84748006 字节
- 样本数: 44245

数据集来源

由以下高质量DPO数据集组合而成:
- argilla/Capybara-Preferences: 7,424样本
- argilla/distilabel-intel-orca-dpo-pairs: 2,299样本
- argilla/ultrafeedback-binarized-preferences-cleaned: 22,799样本
- argilla/distilabel-math-preference-dpo: 2,181样本
- unalignment/toxic-dpo-v0.2: 541样本
- M4-ai/prm_dpo_pairs_cleaned: 7,958样本
- jondurbin/truthy-dpo-v0.1: 1,016样本

数据集处理

应用基于规则的过滤，移除选定答案中的gptisms，共移除2,206样本。

数据集注意事项

包含一个设计用于提示模型回答非法问题的数据集(toxic-dpo-v0.2)，可通过特定代码过滤移除。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，偏好对齐数据集对于提升大语言模型遵循人类意图的能力至关重要。ORPO-DPO-mix-40k数据集通过集成多个高质量开源偏好数据集构建而成，其核心策略是精选与融合。具体而言，该数据集从七个知名数据源中筛选出高质量样本，包括Capybara-Preferences、distilabel-intel-orca-dpo-pairs、ultrafeedback-binarized-preferences-cleaned等。构建过程中，对每个源数据均设定了严格的分数阈值，例如要求被选答案的评分不低于5分或9分，以确保样本质量。此外，还应用了基于规则的过滤方法，专门移除了被选答案中可能存在的GPT风格表达，进一步净化了数据。最终，经过筛选与去重，数据集共整合了约44,245个训练样本，形成了一个规模适中但质量精良的混合数据集。

特点

该数据集在偏好学习领域展现出鲜明的技术特色。其首要特征在于数据的多样性与高质量，它汇聚了来自不同领域和任务的对话与问答偏好对，覆盖了通用对话、数学推理、真实性验证乃至毒性内容等多个维度，为模型提供了全面的对齐信号。数据结构设计兼顾了ORPO和DPO两种主流训练范式的格式要求，每条样本均包含提示词、被选回答、被拒回答以及来源标识等关键字段，并特别在v1.2版本中增加了`question`列以增强与Axolotl等训练框架的兼容性。值得注意的是，数据集内包含一个旨在处理非法问题的毒性子集，这为研究模型的安全边界与对齐鲁棒性提供了独特资源，同时用户也可根据需要将其过滤。

使用方法

该数据集专为支持基于人类反馈的强化学习训练流程而设计。用户可直接通过Hugging Face的`datasets`库加载数据集，并应用于ORPO或DPO训练器中。对于ORPO训练，推荐在Axolotl配置文件中指定数据集路径并设置相应的训练参数，如`rl: orpo`和`orpo_alpha`。若进行DPO训练，作者建议使用其扁平化版本`mlabonne/orpo-dpo-mix-40k-flat`以获得更佳体验。在使用前，用户可根据研究目标决定是否保留毒性子集，通过简单的过滤操作即可实现。该数据集作为预对齐的优质资源，能够有效助力研究人员和开发者微调语言模型，使其输出更符合人类偏好与安全准则。

背景与挑战

背景概述

在大型语言模型（LLM）的优化领域，基于人类反馈的强化学习（RLHF）及其衍生的直接偏好优化（DPO）与顺序相对偏好优化（ORPO）方法，已成为提升模型与人类价值观对齐能力的关键技术。数据集mlabonne/orpo-dpo-mix-40k由研究人员mlabonne于近期创建，旨在为ORPO和DPO训练提供一个高质量、大规模的对齐偏好数据集。该数据集整合了多个经过严格筛选的公开偏好数据集，如Capybara-Preferences、ultrafeedback-binarized-preferences-cleaned等，通过规则过滤去除低质量或含有特定模式（如“gptisms”）的样本，最终汇集了超过四万条包含“选择”与“拒绝”响应的对话样本。其核心研究问题聚焦于如何高效、稳定地训练语言模型，使其输出更符合人类偏好，从而推动对齐技术在实际应用中的普及与性能提升。

当前挑战

该数据集旨在解决的领域挑战，主要围绕语言模型对齐中的偏好学习问题。具体而言，如何构建一个能够全面、无偏地反映人类复杂价值观与意图的偏好数据集，以训练模型区分高质量与低质量回应，并避免生成有害、不实或带有偏见的内容。在构建过程中，挑战同样显著：首先，需要从多个异构数据源中筛选和整合高质量样本，确保数据的一致性与代表性；其次，必须设计有效的过滤规则以剔除数据中的噪声和不良模式，例如自动化生成的刻板表达；此外，平衡不同领域（如数学推理、事实性、安全性）的样本分布，并处理潜在的数据毒性问题，也是构建过程中需要克服的关键难点。

常用场景

经典使用场景

在大型语言模型对齐研究领域，ORPO-DPO-mix-40k数据集为偏好学习提供了关键训练资源。该数据集整合了多个高质量的人类偏好标注数据，通过精心筛选的“被选择”与“被拒绝”回答对，为模型训练提供了明确的优化方向。研究者通常利用该数据集进行直接偏好优化（DPO）或相对偏好优化（ORPO）训练，旨在引导模型生成更符合人类价值观和偏好的文本输出。其经典应用场景包括微调Llama 3等开源大语言模型，通过对比学习机制有效提升模型在对话、推理和内容生成任务中的表现。

实际应用

在实际部署中，基于该数据集训练的模型能够显著提升智能助手、内容生成平台和问答系统的实用性与安全性。例如，在开发遵循伦理准则的对话机器人时，利用数据集中的毒性过滤和真实性偏好数据，可以抑制模型产生有害或虚假信息。在教育和研究辅助场景下，模型通过数据集中包含的数学推理和高质量解答偏好，能够提供更准确、逻辑更严谨的答案。这些应用直接转化了学术研究成果，使生成式人工智能更可靠、更负责任地服务于各行各业。

衍生相关工作

围绕ORPO-DPO-mix-40k数据集，衍生出了一系列重要的模型优化与评估工作。最直接的应用体现在对Llama 3等主流开源模型进行ORPO微调的实践指南与案例研究中，这些工作验证了数据集在提升模型指令遵循和对话质量方面的有效性。同时，该数据集的构建方法论也启发了后续更多混合偏好数据集的创建，例如其扁平化版本mlabonne/orpo-dpo-mix-40k-flat。此外，社区基于该数据集开展的毒性控制、真实性增强等专项研究，进一步深化了人们对不同偏好维度如何影响模型行为的理解。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集