zephyr-ultrafeedback-hybrid

Hugging Face2024-08-22 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/wzhouad/zephyr-ultrafeedback-hybrid

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含四个主要特征：'prompt'（提示）、'prompt_id'（提示ID）、'chosen'（选定内容，包含'content'和'role'）和'rejected'（拒绝内容，包含'content'和'role'）。数据集分为训练集和测试集，分别包含62680和2000个样本。该数据集专门用于训练'wzhouad/zephyr-7B-WPO-HB'模型，采用混合强化学习设置。提示来自Ultrafeedback数据集，输出包括基于HuggingFaceH4/mistral-7b-sft-beta模型的5个输出和基于GPT-4-turbo的1个输出。评分使用GPT-4进行。

创建时间：

2024-08-22

原始信息汇总

数据集概述

数据集信息

特征:
- prompt: 字符串类型
- prompt_id: 字符串类型
- chosen: 列表类型，包含以下字段:
  - content: 字符串类型
  - role: 字符串类型
- rejected: 列表类型，包含以下字段:
  - content: 字符串类型
  - role: 字符串类型
数据分割:
- train: 包含62680个样本，318817698字节
- test: 包含2000个样本，9094822字节
数据大小:
- 下载大小: 177851564字节
- 数据集大小: 327912520字节

配置

默认配置:
- train 数据文件路径: data/train-*
- test 数据文件路径: data/test-*

数据集用途

该数据集专门用于训练 wzhouad/zephyr-7B-WPO-HB 模型，采用混合强化学习（RL）设置。
提示（prompts）来源于 Ultrafeedback 数据集，对应的输出包括：
- On-Policy 输出: 使用 HuggingFaceH4/mistral-7b-sft-beta 模型生成的5个输出。
- GPT-4-turbo 输出: 使用 GPT-4-turbo 模型生成的1个输出。

许可证

该模型基于 Zoom 软件许可证，仅允许用于非商业、教育或学术研究目的。

引用

WPO:

@article{zhou2024wpo, title={WPO: Enhancing RLHF with Weighted Preference Optimization}, author={Zhou, Wenxuan and Agrawal, Ravi and Zhang, Shujian and Indurthi, Sathish Reddy and Zhao, Sanqiang and Song, Kaiqiang and Xu, Silei and Zhu, Chenguang}, journal={arXiv preprint arXiv:2406.11827}, year={2024} }
Ultrafeedback:

@article{cui2023ultrafeedback, title={{UltraFeedback}: Boosting language models with high-quality feedback}, author={Cui, Ganqu and Yuan, Lifan and Ding, Ning and Yao, Guanming and Zhu, Wei and Ni, Yuan and Xie, Guotong and Liu, Zhiyuan and Sun, Maosong}, journal={arXiv preprint arXiv:2310.01377}, year={2023} }

搜集汇总

数据集介绍

构建方式

zephyr-ultrafeedback-hybrid数据集的构建基于Ultrafeedback数据集，旨在为混合强化学习环境中的模型训练提供支持。数据集中包含来自Ultrafeedback的提示，并通过HuggingFaceH4/mistral-7b-sft-beta模型生成5个策略内输出，以及通过GPT-4-turbo生成1个输出。所有输出均经过GPT-4评分，以确保其质量。该数据集的构建过程严格遵循了WPO论文中的方法，确保了数据的科学性和可靠性。

特点

zephyr-ultrafeedback-hybrid数据集的特点在于其多样化的输出生成方式。数据集不仅包含基于Ultrafeedback提示的策略内输出，还引入了GPT-4-turbo生成的高质量输出，从而提供了丰富的对比样本。此外，所有输出均经过GPT-4评分，确保了数据的高质量。数据集的结构清晰，包含训练集和测试集，分别包含62680和2000个样本，适用于大规模模型的训练与评估。

使用方法

zephyr-ultrafeedback-hybrid数据集主要用于训练和评估混合强化学习模型，特别是针对wzhouad/zephyr-7B-WPO-HB模型的优化。用户可以通过加载数据集的训练集和测试集，分别进行模型的训练和性能评估。数据集的提示和输出对可用于对比学习，帮助模型在生成任务中提升表现。使用该数据集时，建议参考WPO论文中的方法，以确保模型训练的科学性和有效性。

背景与挑战

背景概述

zephyr-ultrafeedback-hybrid数据集由Wenxuan Zhou等人于2024年创建，旨在支持强化学习与人类反馈（RLHF）领域的研究。该数据集基于Ultrafeedback数据集，专门用于训练zephyr-7B-WPO-HB模型，采用混合强化学习框架。其核心研究问题在于如何通过加权偏好优化（WPO）方法提升语言模型的性能。数据集中包含来自Ultrafeedback的提示，并通过HuggingFaceH4/mistral-7b-sft-beta模型和GPT-4-turbo生成的多组输出，进一步利用GPT-4进行评分。这一数据集为语言模型的优化提供了高质量的训练资源，推动了RLHF领域的技术发展。

当前挑战

zephyr-ultrafeedback-hybrid数据集在构建与应用中面临多重挑战。首先，数据集的生成依赖于多模型协作，包括HuggingFaceH4/mistral-7b-sft-beta和GPT-4-turbo，如何确保不同模型输出的一致性与高质量是核心难题。其次，评分环节依赖GPT-4，其高昂的计算成本与评分标准的统一性对数据集的扩展性提出了挑战。此外，数据集的非商业用途限制可能影响其在实际应用中的广泛推广。这些挑战不仅体现在数据集的构建过程中，也对其在语言模型优化领域的实际应用提出了更高的要求。

常用场景

经典使用场景

在自然语言处理领域，zephyr-ultrafeedback-hybrid数据集主要用于训练和优化基于强化学习的语言模型。该数据集通过结合Ultrafeedback数据集中的提示和由HuggingFaceH4/mistral-7b-sft-beta模型生成的输出，以及GPT-4-turbo生成的高质量输出，为模型提供了丰富的训练样本。这种混合训练方式使得模型能够在多样化的数据环境中进行学习，从而提升其生成文本的质量和多样性。

衍生相关工作

基于zephyr-ultrafeedback-hybrid数据集，研究人员提出了多项经典工作，如加权偏好优化（WPO）方法，该方法显著提升了语言模型在生成任务中的表现。此外，该数据集还启发了对混合强化学习框架的进一步研究，推动了语言模型在复杂任务中的应用。这些工作不仅扩展了数据集的应用范围，还为未来的研究提供了新的方向。

数据集最近研究