five

llama3-ultrafeedback-hybrid-v2

收藏
Hugging Face2024-08-22 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/wzhouad/llama3-ultrafeedback-hybrid-v2
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集专为训练[wzhouad/Llama3-Instruct-8B-WPO-HB-v2](https://huggingface.co/wzhouad/Llama3-Instruct-8B-WPO-HB-v2)模型设计,采用混合强化学习设置。数据集包含三个主要特征:'prompt'(字符串类型)、'chosen'(包含'content'和'role'的字符串列表)和'rejected'(包含'content'和'role'的字符串列表)。数据集分为训练集和测试集,分别包含62479和2000个样本。提示来自Ultrafeedback数据集,输出包括由meta-llama/Meta-Llama-3-8B-Instruct模型生成的5个输出和由GPT-4-turbo生成的1个输出。选择输出时,采用特定方法确定'chosen'和'rejected'输出。
创建时间:
2024-08-22
原始信息汇总

数据集概述

数据集信息

  • 特征:
    • prompt: 字符串类型
    • chosen: 列表类型,包含以下字段:
      • content: 字符串类型
      • role: 字符串类型
    • rejected: 列表类型,包含以下字段:
      • content: 字符串类型
      • role: 字符串类型
  • 分割:
    • train: 包含62479个样本,占用336919685字节
    • test: 包含2000个样本,占用8958822字节
  • 下载大小: 185968741字节
  • 数据集大小: 345878507字节

配置

  • 默认配置:
    • train: 数据文件路径为data/train-*
    • test: 数据文件路径为data/test-*

数据集用途

  • 该数据集专门用于训练wzhouad/Llama3-Instruct-8B-WPO-HB-v2模型,采用混合强化学习(RL)设置。
  • 提示语来源于Ultrafeedback数据集,输出包括:
    1. On-Policy输出: 使用meta-llama/Meta-Llama-3-8B-Instruct模型生成的5个输出。
    2. GPT-4-turbo输出: 使用GPT-4-turbo模型生成的1个输出。

数据选择方法

  • 使用得分最低的响应作为被拒绝的响应。
  • 当多个输出得分最高时,选择长度最短的输出。
  • 当多个输出得分最低时,选择与被选输出长度差异最小的输出。

许可证

  • 该模型遵循Zoom软件许可证,仅允许用于非商业、教育或学术研究目的。

引用

  • WPO:

    @article{zhou2024wpo, title={WPO: Enhancing RLHF with Weighted Preference Optimization}, author={Zhou, Wenxuan and Agrawal, Ravi and Zhang, Shujian and Indurthi, Sathish Reddy and Zhao, Sanqiang and Song, Kaiqiang and Xu, Silei and Zhu, Chenguang}, journal={arXiv preprint arXiv:2406.11827}, year={2024} }

  • Ultrafeedback:

    @article{cui2023ultrafeedback, title={{UltraFeedback}: Boosting language models with high-quality feedback}, author={Cui, Ganqu and Yuan, Lifan and Ding, Ning and Yao, Guanming and Zhu, Wei and Ni, Yuan and Xie, Guotong and Liu, Zhiyuan and Sun, Maosong}, journal={arXiv preprint arXiv:2310.01377}, year={2023} }

搜集汇总
数据集介绍
main_image_url
构建方式
llama3-ultrafeedback-hybrid-v2数据集的构建基于Ultrafeedback数据集,结合了混合强化学习(RL)的设置。该数据集通过meta-llama/Meta-Llama-3-8B-Instruct模型生成了5个基于Ultrafeedback提示的响应,同时使用GPT-4-turbo生成了1个响应。在偏好数据的构建过程中,采用了最小得分响应作为拒绝样本的策略,并在多个响应得分相同的情况下,优先选择长度最短或与选定样本长度差异最小的响应。
特点
该数据集的特点在于其多样化的响应来源和精细的偏好选择机制。通过结合meta-llama/Meta-Llama-3-8B-Instruct和GPT-4-turbo的生成能力,数据集提供了丰富的对话样本。此外,偏好选择机制确保了数据的质量,通过最小得分和长度差异的筛选,进一步优化了模型的训练效果。
使用方法
llama3-ultrafeedback-hybrid-v2数据集主要用于训练混合强化学习模型,特别是针对wzhouad/Llama3-Instruct-8B-WPO-HB-v2模型的优化。用户可以通过HuggingFace平台下载数据集,并按照提供的训练和测试集路径进行模型训练和评估。该数据集的使用需遵循Zoom软件许可协议,仅限于非商业、教育或学术研究目的。
背景与挑战
背景概述
llama3-ultrafeedback-hybrid-v2数据集是为训练wzhouad/Llama3-Instruct-8B-WPO-HB-v2模型而专门构建的,旨在支持混合强化学习(RL)环境下的模型优化。该数据集的核心数据来源于Ultrafeedback数据集,并结合了Meta-Llama-3-8B-Instruct模型和GPT-4-turbo生成的响应。通过对比不同模型的输出,数据集采用了基于评分和长度的选择机制,以确定最优和最差响应。该数据集的构建反映了近年来在语言模型优化领域的研究进展,特别是通过加权偏好优化(WPO)方法提升模型性能的研究方向。其创建时间为2024年,主要研究人员包括Wenxuan Zhou等人,相关研究已在arXiv预印本平台发表。
当前挑战
llama3-ultrafeedback-hybrid-v2数据集在构建和应用过程中面临多重挑战。首先,在领域问题方面,该数据集旨在解决语言模型在强化学习环境下的偏好优化问题,如何准确评估和选择模型生成的响应仍是一个技术难点。其次,数据集的构建过程中,需要处理来自不同模型的多样化输出,并设计合理的评分和选择机制,以确保数据的质量和一致性。此外,Ultrafeedback数据集本身的高质量反馈要求对数据清洗和标注提出了更高的标准,进一步增加了构建难度。最后,如何在非商业用途的限制下推广该数据集的应用,也是其面临的现实挑战之一。
常用场景
经典使用场景
在自然语言处理领域,llama3-ultrafeedback-hybrid-v2数据集被广泛应用于训练和优化大型语言模型。该数据集通过结合Ultrafeedback数据集中的提示和由meta-llama/Meta-Llama-3-8B-Instruct模型生成的输出,为模型提供了丰富的训练样本。特别是在强化学习环境中,该数据集能够帮助模型学习如何生成更符合人类偏好的响应。
实际应用
在实际应用中,llama3-ultrafeedback-hybrid-v2数据集被用于开发智能对话系统和内容生成工具。通过训练基于该数据集的模型,企业能够提供更加个性化和高质量的客户服务,同时提升内容创作的效率和质量。特别是在教育和研究领域,该数据集的应用有助于开发更智能的辅助工具,推动学术研究的进展。
衍生相关工作
llama3-ultrafeedback-hybrid-v2数据集的发布催生了一系列相关研究工作,特别是在强化学习与人类反馈(RLHF)领域。基于该数据集的研究不仅推动了加权偏好优化(WPO)方法的发展,还为其他研究者提供了宝贵的实验数据和基准。这些工作进一步拓展了大型语言模型的应用范围,提升了其在复杂任务中的表现。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作