tulu-3-ultrafeedback-cleaned-on-policy-70b

Name: tulu-3-ultrafeedback-cleaned-on-policy-70b
Creator: Allen Institute for AI
Published: 2024-11-21 23:59:11
License: 暂无描述

Hugging Face2024-11-21 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/allenai/tulu-3-ultrafeedback-cleaned-on-policy-70b

下载链接

链接失效反馈

官方服务：

资源简介：

Tulu 3 Ultrafeedback（清理版）数据集是Tulu 3偏好混合的一部分，包含41.6k生成对，这些生成对来自多个模型，如Mistral、Tulu、Yi、MPT、Google Gemma、InternLM、Falcon、Qwen、Llama和GPT-4等。数据集的生成方法结合了on-policy和off-policy数据，并使用Ultrafeedback模板和LLM法官进行偏好注释。数据集的许可证为ODC-BY，适用于研究和教育用途，但包含的第三方模型输出受各自的使用条款约束。

The Tulu 3 Ultrafeedback (cleaned) dataset is part of the Tulu 3 preference mixture, containing 41.6k generation pairs sourced from multiple models including Mistral, Tulu, Yi, MPT, Google Gemma, InternLM, Falcon, Qwen, Llama, GPT-4, and others. The dataset's generation method combines on-policy and off-policy data, and uses the Ultrafeedback template and LLM judges for preference annotation. The dataset is licensed under ODC-BY, which is applicable for research and educational purposes, while the included third-party model outputs are subject to their respective terms of use.

提供机构：

Allen Institute for AI

创建时间：

2024-11-21

搜集汇总

数据集介绍

构建方式

tulu-3-ultrafeedback-cleaned-on-policy-70b数据集的构建基于Ai2的Ultrafeedback清理版本，移除了TruthfulQA的实例，并进一步过滤了ShareGPT的数据。通过合成管道生成完成和偏好，结合了策略内和策略外数据，利用Ultrafeedback模板和LLM法官在四个不同方面进行偏好标注。生成代码可在open-instruct项目的scripts/synth_pref目录中找到。

特点

该数据集包含41.6k生成对，部分完成来自Llama-3.1-Tulu-3-70B模型。数据集涵盖了多种模型生成的完成，包括Mistral、Tulu、Yi、MPT、Google Gemma、InternLM、Falcon、Qwen、Llama、GPT-4和Claude等。每个生成对包括提示、选择内容和拒绝内容，内容详细且多样，适用于偏好学习和模型评估。

使用方法

该数据集主要用于研究和教育目的，适用于偏好学习、模型评估和生成任务。用户可以通过HuggingFace平台下载数据集，按照默认配置加载训练数据。使用时应遵守ODC-BY许可证和Ai2的负责任使用指南，注意部分数据受第三方模型使用条款的约束。

背景与挑战

背景概述

tulu-3-ultrafeedback-cleaned-on-policy-70b数据集是Tulu 3偏好混合数据集的一部分，由Allen Institute for AI（Ai2）主导开发。该数据集基于Ai2清理后的Ultrafeedback版本，剔除了TruthfulQA的实例，并进一步过滤了ShareGPT的数据。数据集包含41.6k个生成对，部分数据来自Llama-3.1-Tulu-3-70B模型的策略内生成。该数据集的核心研究问题在于通过多模型生成和偏好标注，提升大语言模型在生成任务中的表现。其构建过程中使用了包括Mistral、Tulu 2、Yi、MPT、Gemma、InternLM、Falcon、Qwen、Llama 3.1、GPT-4和Claude 3.5在内的多种模型，旨在为自然语言处理领域提供高质量的偏好数据支持。

当前挑战

tulu-3-ultrafeedback-cleaned-on-policy-70b数据集在构建和应用中面临多重挑战。首先，数据清洗和过滤过程复杂，需确保数据质量的同时避免信息丢失。其次，多模型生成和偏好标注的合成流程涉及大量计算资源和时间成本，且不同模型的输出风格和性能差异增加了数据一致性的难度。此外，数据集中的部分数据受限于第三方模型的许可协议，限制了其商业应用范围。最后，偏好标注的准确性和客观性依赖于LLM评判的质量，如何确保评判标准的公正性和一致性仍需进一步研究。

常用场景

经典使用场景

在自然语言处理领域，tulu-3-ultrafeedback-cleaned-on-policy-70b数据集被广泛用于模型偏好学习的研究。通过提供大量的生成对，该数据集能够帮助研究人员训练和评估模型在生成任务中的表现，特别是在多轮对话和复杂指令理解场景中。

解决学术问题

该数据集解决了模型在生成任务中偏好不一致的问题，通过提供高质量的偏好标注数据，帮助研究人员更好地理解模型生成结果的优劣。这不仅提升了模型在生成任务中的表现，还为模型优化提供了新的研究方向。

衍生相关工作

基于tulu-3-ultrafeedback-cleaned-on-policy-70b数据集，许多经典研究工作得以展开，包括模型偏好学习的算法优化、多轮对话系统的开发以及生成模型的评估方法改进。这些工作进一步推动了自然语言处理领域的发展，并为后续研究提供了宝贵的数据支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集