shibing624/DPO-En-Zh-20k-Preference

Name: shibing624/DPO-En-Zh-20k-Preference
Creator: shibing624
Published: 2024-04-27 14:07:56
License: 暂无描述

Hugging Face2024-04-27 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/shibing624/DPO-En-Zh-20k-Preference

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于文本生成任务的多语言数据集，包含英文和中文两种语言。数据集的主要目的是用于DPO（Direct Preference Optimization）、ORPO（Online Reinforcement Learning with Preference Optimization）和RLHF（Reinforcement Learning from Human Feedback）模型的训练。数据集由多个子数据集组成，包括argilla/distilabel-capybara-dpo-7k-binarized、argilla/distilabel-intel-orca-dpo-pairs、argilla/ultrafeedback-binarized-preferences-cleaned和wenbopan/Chinese-dpo-pairs。数据集的结构包含system、history、question、response_rejected和response_chosen等字段，分别表示系统信息、对话历史、问题、被拒绝的响应和选择的响应。数据集的规模在10K到100K之间，具体数据长度在README中有详细描述。

提供机构：

shibing624

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 文本生成
语言: 英语（en）、中文（zh）
标签: DPO, ORPO, RLHF
大小类别: 10K<n<100K

配置详情

配置名称: en
- 数据文件:
  - 分割: train
  - 路径: dpo_en.jsonl
配置名称: zh
- 数据文件:
  - 分割: train
  - 路径: dpo_zh.jsonl

数据集特征

配置名称: en
- 特征:
  - 名称: system
    - 数据类型: string
  - 名称: history
    - 数据类型: string
  - 名称: question
    - 数据类型: string
  - 名称: response_rejected
    - 数据类型: string
  - 名称: response_chosen
    - 数据类型: string
配置名称: zh
- 特征:
  - 名称: system
    - 数据类型: string
  - 名称: history
    - 数据类型: string
  - 名称: question
    - 数据类型: string
  - 名称: response_rejected
    - 数据类型: string
  - 名称: response_chosen
    - 数据类型: string

数据集组成

示例数量: 共计20,000个示例
- 4,000个来自argilla/distilabel-capybara-dpo-7k-binarized，选定分数>=4。
- 3,000个来自argilla/distilabel-intel-orca-dpo-pairs，选定分数>=8。
- 3,000个来自argilla/ultrafeedback-binarized-preferences-cleaned，选定分数>=4。
- 10,000个来自wenbopan/Chinese-dpo-pairs。

数据长度统计

dpo_zh.jsonl:
- system + history + question + response_chosen的平均字符长度: 674
- system + history + question + response_chosen的90%分位数的字符长度: 1279
- response_chosen的平均字符长度: 455.5517
- response_chosen的90%分位数的字符长度: 994.0
dpo_en.jsonl:
- system + history + question + response_chosen的平均字符长度: 3268
- system + history + question + response_chosen的90%分位数的字符长度: 7320
- response_chosen的平均字符长度: 1447
- response_chosen的90%分位数的字符长度: 2886

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，偏好对齐数据集对于提升大语言模型的指令遵循能力至关重要。该数据集通过精心筛选多个高质量开源数据集构建而成，具体整合了来自argilla的三个英文数据集以及wenbopan的中文数据集。构建过程中，对每个源数据集均设定了严格的分数阈值，例如要求chosen分数不低于4或8，以确保所选样本的质量与偏好信号的清晰度。最终，数据集形成了包含英文与中文两个独立配置的结构，每个配置均包含系统指令、对话历史、问题以及被拒绝与采纳的回复对，为直接偏好优化等算法提供了结构化的训练基础。

特点

作为面向多语言偏好对齐任务的数据集，其显著特征在于同时涵盖了英文与中文两种语言环境，满足了跨语言模型训练的需求。数据规模适中，介于一万至十万样本之间，确保了训练效率与数据多样性的平衡。数据字段设计明确，包含了完整的对话上下文信息，使得模型能够学习在具体语境下的偏好判断。特别值得注意的是，数据集中采纳的回复在长度上展现出一定的多样性，中文回复平均长度约为456字符，英文回复则达到1447字符，这有助于模型适应不同复杂程度的生成任务。

使用方法

该数据集专为直接偏好优化及相关的对齐算法训练而设计。使用者可直接加载对应的英文或中文配置文件，获取结构化的训练样本。每个样本均提供了系统设定、历史对话、当前问题，以及一对经过人工或模型评判的优劣回复，便于计算偏好损失函数。在具体训练流程中，开发者可参考项目关联的MedicalGPT代码库，将数据应用于DPO或ORPO等训练框架，以微调基座模型，使其输出更符合人类价值观与指令要求。数据集的字段命名经过优化，确保了与主流训练代码的兼容性，简化了预处理步骤。

背景与挑战

背景概述

在人工智能领域，特别是大语言模型（LLM）的优化过程中，直接偏好优化（DPO）作为一种高效的微调方法，旨在通过人类反馈数据提升模型输出的质量与安全性。数据集shibing624/DPO-En-Zh-20k-Preference由研究者shibing624于近期构建，其核心研究问题聚焦于解决多语言场景下，模型生成内容与人类偏好对齐的挑战。该数据集整合了多个高质量偏好数据源，涵盖英文与中文双语种，为DPO、ORPO等强化学习微调技术提供了关键训练资源，显著推动了对话系统与文本生成模型在跨语言环境中的性能提升。

当前挑战

该数据集致力于解决大语言模型在人类偏好对齐领域的核心挑战，即如何确保模型生成内容不仅符合语法正确性，更能满足人类在安全性、有用性及伦理规范方面的复杂偏好。在构建过程中，面临多重技术难题：首先，数据整合需从多个异构源中筛选高质量样本，并统一字段格式以适配不同微调框架；其次，双语种数据的平衡与质量把控要求严格的语言处理能力，以避免文化或语义偏差；此外，长文本序列的处理与标准化，如控制响应长度与上下文一致性，也对数据清洗与标注提出了较高要求。

常用场景

经典使用场景

在自然语言处理领域，偏好对齐数据集是优化大语言模型行为的关键资源。该数据集通过提供中英文双语的偏好对，为直接偏好优化（DPO）和顺序偏好优化（ORPO）等算法提供了标准训练素材。其经典使用场景在于，研究人员利用其中标注的“被采纳回答”与“被拒绝回答”的对比样本，训练模型学会区分并生成更符合人类价值观和指令遵循要求的文本输出，从而在无需复杂强化学习框架的情况下实现模型微调。

解决学术问题

该数据集有效应对了大型语言模型与人类偏好对齐的核心学术挑战。它通过高质量、大规模的偏好标注数据，解决了传统强化学习从人类反馈中训练时存在的训练不稳定、奖励函数设计复杂以及计算成本高昂等问题。其意义在于为DPO等更高效、更稳定的对齐方法提供了实证基础，推动了对齐技术从理论到实践的跨越，使得模型输出在安全性、有用性和无害性上取得了显著提升。

衍生相关工作

围绕该数据集所蕴含的偏好对齐思想，学术界与工业界衍生了一系列经典研究工作。它不仅直接服务于DPO和ORPO等前沿微调算法的开发与验证，也为后续的指令微调数据集构建、多轮对话偏好建模以及跨语言对齐研究提供了重要的数据范式和基准。相关成果进一步催生了更高效、更通用的模型对齐技术路线，持续推动着人机交互向更自然、更可信的方向演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集