five

tulu-3-ultrafeedback-cleaned-on-policy-70b

收藏
Hugging Face2024-11-21 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/allenai/tulu-3-ultrafeedback-cleaned-on-policy-70b
下载链接
链接失效反馈
官方服务:
资源简介:
Tulu 3 Ultrafeedback(清理版)数据集是Tulu 3偏好混合的一部分,包含41.6k生成对,这些生成对来自多个模型,如Mistral、Tulu、Yi、MPT、Google Gemma、InternLM、Falcon、Qwen、Llama和GPT-4等。数据集的生成方法结合了on-policy和off-policy数据,并使用Ultrafeedback模板和LLM法官进行偏好注释。数据集的许可证为ODC-BY,适用于研究和教育用途,但包含的第三方模型输出受各自的使用条款约束。

The Tulu 3 Ultrafeedback (cleaned) dataset is part of the Tulu 3 preference mixture, containing 41.6k generation pairs sourced from multiple models including Mistral, Tulu, Yi, MPT, Google Gemma, InternLM, Falcon, Qwen, Llama, GPT-4, and others. The dataset's generation method combines on-policy and off-policy data, and uses the Ultrafeedback template and LLM judges for preference annotation. The dataset is licensed under ODC-BY, which is applicable for research and educational purposes, while the included third-party model outputs are subject to their respective terms of use.
提供机构:
Allen Institute for AI
创建时间:
2024-11-21
搜集汇总
数据集介绍
main_image_url
构建方式
tulu-3-ultrafeedback-cleaned-on-policy-70b数据集的构建基于Ai2的Ultrafeedback清理版本,移除了TruthfulQA的实例,并进一步过滤了ShareGPT的数据。通过合成管道生成完成和偏好,结合了策略内和策略外数据,利用Ultrafeedback模板和LLM法官在四个不同方面进行偏好标注。生成代码可在open-instruct项目的scripts/synth_pref目录中找到。
特点
该数据集包含41.6k生成对,部分完成来自Llama-3.1-Tulu-3-70B模型。数据集涵盖了多种模型生成的完成,包括Mistral、Tulu、Yi、MPT、Google Gemma、InternLM、Falcon、Qwen、Llama、GPT-4和Claude等。每个生成对包括提示、选择内容和拒绝内容,内容详细且多样,适用于偏好学习和模型评估。
使用方法
该数据集主要用于研究和教育目的,适用于偏好学习、模型评估和生成任务。用户可以通过HuggingFace平台下载数据集,按照默认配置加载训练数据。使用时应遵守ODC-BY许可证和Ai2的负责任使用指南,注意部分数据受第三方模型使用条款的约束。
背景与挑战
背景概述
tulu-3-ultrafeedback-cleaned-on-policy-70b数据集是Tulu 3偏好混合数据集的一部分,由Allen Institute for AI(Ai2)主导开发。该数据集基于Ai2清理后的Ultrafeedback版本,剔除了TruthfulQA的实例,并进一步过滤了ShareGPT的数据。数据集包含41.6k个生成对,部分数据来自Llama-3.1-Tulu-3-70B模型的策略内生成。该数据集的核心研究问题在于通过多模型生成和偏好标注,提升大语言模型在生成任务中的表现。其构建过程中使用了包括Mistral、Tulu 2、Yi、MPT、Gemma、InternLM、Falcon、Qwen、Llama 3.1、GPT-4和Claude 3.5在内的多种模型,旨在为自然语言处理领域提供高质量的偏好数据支持。
当前挑战
tulu-3-ultrafeedback-cleaned-on-policy-70b数据集在构建和应用中面临多重挑战。首先,数据清洗和过滤过程复杂,需确保数据质量的同时避免信息丢失。其次,多模型生成和偏好标注的合成流程涉及大量计算资源和时间成本,且不同模型的输出风格和性能差异增加了数据一致性的难度。此外,数据集中的部分数据受限于第三方模型的许可协议,限制了其商业应用范围。最后,偏好标注的准确性和客观性依赖于LLM评判的质量,如何确保评判标准的公正性和一致性仍需进一步研究。
常用场景
经典使用场景
在自然语言处理领域,tulu-3-ultrafeedback-cleaned-on-policy-70b数据集被广泛用于模型偏好学习的研究。通过提供大量的生成对,该数据集能够帮助研究人员训练和评估模型在生成任务中的表现,特别是在多轮对话和复杂指令理解场景中。
解决学术问题
该数据集解决了模型在生成任务中偏好不一致的问题,通过提供高质量的偏好标注数据,帮助研究人员更好地理解模型生成结果的优劣。这不仅提升了模型在生成任务中的表现,还为模型优化提供了新的研究方向。
衍生相关工作
基于tulu-3-ultrafeedback-cleaned-on-policy-70b数据集,许多经典研究工作得以展开,包括模型偏好学习的算法优化、多轮对话系统的开发以及生成模型的评估方法改进。这些工作进一步推动了自然语言处理领域的发展,并为后续研究提供了宝贵的数据支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作