tulu-3-ultrafeedback-cleaned-on-policy-8b
收藏Hugging Face2024-11-22 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/allenai/tulu-3-ultrafeedback-cleaned-on-policy-8b
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个偏好数据集,属于Tulu 3偏好混合的一部分。它包含从Ai2的Ultrafeedback清理版本中提取的提示,并进一步过滤以移除ShareGPT的实例。数据集包含41.6k生成对,这些生成对来自多个模型,包括Mistral 7B Instruct v0.2、Tulu 2 7B、Yi-34B-Chat等。生成过程结合了on-policy和off-policy数据,并使用Ultrafeedback模板和LLM法官在四个不同方面进行偏好注释。数据集的许可证为ODC-BY,适用于研究和教育用途,符合Ai2的负责任使用指南。
提供机构:
Allen Institute for AI
创建时间:
2024-11-21
搜集汇总
数据集介绍

构建方式
tulu-3-ultrafeedback-cleaned-on-policy-8b数据集的构建基于Ai2的Ultrafeedback清理版本,剔除了TruthfulQA的实例,并进一步过滤了ShareGPT的数据。该数据集通过合成管道生成,结合了策略内和策略外的数据,使用Ultrafeedback模板和LLM评判者在四个不同方面进行偏好标注。生成过程中采用了多种模型,包括Mistral、Tulu、Yi、MPT、Google Gemma、InternLM、Falcon、Qwen、Llama、GPT-4和Claude等,确保了数据的多样性和广泛性。
特点
该数据集包含了41.6k个生成对,每个生成对由提示、优选内容和拒绝内容组成,优选和拒绝内容均包含内容和角色信息。数据集的特点在于其多样化的模型来源和严格的过滤机制,确保了数据的质量和适用性。此外,数据集的构建过程中采用了多方面的偏好标注,使得数据在研究和教育领域具有较高的参考价值。
使用方法
tulu-3-ultrafeedback-cleaned-on-policy-8b数据集适用于研究和教育用途,用户可以通过HuggingFace平台下载并使用该数据集。数据集的使用需遵循ODC-BY许可协议,并遵守Ai2的负责任使用指南。在使用过程中,用户应注意不同子集可能适用的不同许可协议,特别是涉及第三方模型生成的数据部分,需遵守相应的使用条款。
背景与挑战
背景概述
Tulu-3-Ultrafeedback-Cleaned-on-Policy-8B数据集是Tulu 3偏好混合数据集的一部分,由Allen Institute for AI(Ai2)开发。该数据集基于Ai2清理后的Ultrafeedback版本,移除了TruthfulQA的实例,并进一步过滤了ShareGPT的数据。数据集包含41.6k生成对,部分生成对来自Llama-3.1-Tulu-3-8B模型的策略内生成。该数据集的核心研究问题在于通过多模型生成和偏好标注,提升语言模型在生成任务中的表现。其构建过程中使用了包括Mistral、Tulu、Yi、MPT、Gemma、InternLM、Falcon、Qwen、Llama、GPT-4和Claude等多种模型,旨在为自然语言处理领域提供高质量的偏好数据,推动生成模型的研究与应用。
当前挑战
Tulu-3-Ultrafeedback-Cleaned-on-Policy-8B数据集在构建和应用中面临多重挑战。首先,数据集的生成依赖于多种模型,不同模型的输出质量和风格差异显著,如何确保生成对的一致性和可比性是一个关键问题。其次,偏好标注的准确性依赖于LLM法官的评判,而LLM的评判标准可能存在偏差,影响数据的可靠性。此外,数据集中部分生成对来自策略内生成,如何平衡策略内与策略外数据的比例,以确保数据集的多样性和代表性,也是一个需要解决的难题。最后,数据集涉及多种模型和许可证,如何在遵守各模型使用条款的前提下,确保数据的合法性和可用性,是构建过程中的一大挑战。
常用场景
经典使用场景
在自然语言处理领域,tulu-3-ultrafeedback-cleaned-on-policy-8b数据集被广泛应用于模型偏好学习的研究中。通过该数据集,研究者可以训练和评估模型在生成文本时的偏好选择能力,特别是在多轮对话和复杂指令理解任务中,数据集提供了丰富的生成对和偏好标注,帮助模型更好地理解用户意图并生成更符合预期的回复。
解决学术问题
该数据集有效解决了自然语言处理中模型偏好学习的难题。通过提供大量经过清洗和筛选的生成对,研究者能够深入分析模型在不同情境下的偏好选择行为,进而优化模型的生成策略。此外,数据集中的偏好标注为模型训练提供了明确的指导,显著提升了模型在复杂任务中的表现,推动了对话系统和指令理解领域的研究进展。
衍生相关工作
基于tulu-3-ultrafeedback-cleaned-on-policy-8b数据集,研究者们开展了多项经典工作。例如,利用该数据集训练的模型在对话生成任务中表现出色,相关研究成果发表在顶级学术会议上。此外,数据集还被用于开发新的偏好学习算法,推动了自然语言处理领域的技术创新。这些工作不仅验证了数据集的价值,也为后续研究提供了重要的参考和基础。
以上内容由遇见数据集搜集并总结生成



