tulu-3-ultrafeedback-cleaned-on-policy-8b

Name: tulu-3-ultrafeedback-cleaned-on-policy-8b
Creator: Allen Institute for AI
Published: 2024-11-22 00:48:22
License: 暂无描述

Hugging Face2024-11-22 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/allenai/tulu-3-ultrafeedback-cleaned-on-policy-8b

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个偏好数据集，属于Tulu 3偏好混合的一部分。它包含从Ai2的Ultrafeedback清理版本中提取的提示，并进一步过滤以移除ShareGPT的实例。数据集包含41.6k生成对，这些生成对来自多个模型，包括Mistral 7B Instruct v0.2、Tulu 2 7B、Yi-34B-Chat等。生成过程结合了on-policy和off-policy数据，并使用Ultrafeedback模板和LLM法官在四个不同方面进行偏好注释。数据集的许可证为ODC-BY，适用于研究和教育用途，符合Ai2的负责任使用指南。

提供机构：

Allen Institute for AI

创建时间：

2024-11-21

搜集汇总

数据集介绍

构建方式

tulu-3-ultrafeedback-cleaned-on-policy-8b数据集的构建基于Ai2的Ultrafeedback清理版本，剔除了TruthfulQA的实例，并进一步过滤了ShareGPT的数据。该数据集通过合成管道生成，结合了策略内和策略外的数据，使用Ultrafeedback模板和LLM评判者在四个不同方面进行偏好标注。生成过程中采用了多种模型，包括Mistral、Tulu、Yi、MPT、Google Gemma、InternLM、Falcon、Qwen、Llama、GPT-4和Claude等，确保了数据的多样性和广泛性。

特点

该数据集包含了41.6k个生成对，每个生成对由提示、优选内容和拒绝内容组成，优选和拒绝内容均包含内容和角色信息。数据集的特点在于其多样化的模型来源和严格的过滤机制，确保了数据的质量和适用性。此外，数据集的构建过程中采用了多方面的偏好标注，使得数据在研究和教育领域具有较高的参考价值。

使用方法

tulu-3-ultrafeedback-cleaned-on-policy-8b数据集适用于研究和教育用途，用户可以通过HuggingFace平台下载并使用该数据集。数据集的使用需遵循ODC-BY许可协议，并遵守Ai2的负责任使用指南。在使用过程中，用户应注意不同子集可能适用的不同许可协议，特别是涉及第三方模型生成的数据部分，需遵守相应的使用条款。

背景与挑战

背景概述

Tulu-3-Ultrafeedback-Cleaned-on-Policy-8B数据集是Tulu 3偏好混合数据集的一部分，由Allen Institute for AI（Ai2）开发。该数据集基于Ai2清理后的Ultrafeedback版本，移除了TruthfulQA的实例，并进一步过滤了ShareGPT的数据。数据集包含41.6k生成对，部分生成对来自Llama-3.1-Tulu-3-8B模型的策略内生成。该数据集的核心研究问题在于通过多模型生成和偏好标注，提升语言模型在生成任务中的表现。其构建过程中使用了包括Mistral、Tulu、Yi、MPT、Gemma、InternLM、Falcon、Qwen、Llama、GPT-4和Claude等多种模型，旨在为自然语言处理领域提供高质量的偏好数据，推动生成模型的研究与应用。

当前挑战

Tulu-3-Ultrafeedback-Cleaned-on-Policy-8B数据集在构建和应用中面临多重挑战。首先，数据集的生成依赖于多种模型，不同模型的输出质量和风格差异显著，如何确保生成对的一致性和可比性是一个关键问题。其次，偏好标注的准确性依赖于LLM法官的评判，而LLM的评判标准可能存在偏差，影响数据的可靠性。此外，数据集中部分生成对来自策略内生成，如何平衡策略内与策略外数据的比例，以确保数据集的多样性和代表性，也是一个需要解决的难题。最后，数据集涉及多种模型和许可证，如何在遵守各模型使用条款的前提下，确保数据的合法性和可用性，是构建过程中的一大挑战。

常用场景

经典使用场景

在自然语言处理领域，tulu-3-ultrafeedback-cleaned-on-policy-8b数据集被广泛应用于模型偏好学习的研究中。通过该数据集，研究者可以训练和评估模型在生成文本时的偏好选择能力，特别是在多轮对话和复杂指令理解任务中，数据集提供了丰富的生成对和偏好标注，帮助模型更好地理解用户意图并生成更符合预期的回复。

解决学术问题

该数据集有效解决了自然语言处理中模型偏好学习的难题。通过提供大量经过清洗和筛选的生成对，研究者能够深入分析模型在不同情境下的偏好选择行为，进而优化模型的生成策略。此外，数据集中的偏好标注为模型训练提供了明确的指导，显著提升了模型在复杂任务中的表现，推动了对话系统和指令理解领域的研究进展。

衍生相关工作

基于tulu-3-ultrafeedback-cleaned-on-policy-8b数据集，研究者们开展了多项经典工作。例如，利用该数据集训练的模型在对话生成任务中表现出色，相关研究成果发表在顶级学术会议上。此外，数据集还被用于开发新的偏好学习算法，推动了自然语言处理领域的技术创新。这些工作不仅验证了数据集的价值，也为后续研究提供了重要的参考和基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集