UltraFeedback
收藏github2023-12-30 更新2024-05-31 收录
下载链接:
https://github.com/OpenBMB/UltraFeedback
下载链接
链接失效反馈官方服务:
资源简介:
UltraFeedback是一个大规模、细粒度、多样化的偏好数据集,用于训练强大的奖励模型和批评模型。我们收集了来自多种资源的大约64k个提示,使用这些提示查询多个大型语言模型,并为每个提示生成4种不同的响应,总计256k个样本。为了收集高质量的偏好和文本反馈,我们设计了一个包含4个不同方面的细粒度标注指令:指令遵循、真实性、诚实性和有用性。然后,我们使用GPT-4根据该指令对收集的样本进行标注。
UltraFeedback is a large-scale, fine-grained, and diverse preference dataset designed for training robust reward models and critique models. We collected approximately 64k prompts from various sources, queried multiple large language models using these prompts, and generated four distinct responses for each prompt, resulting in a total of 256k samples. To gather high-quality preferences and textual feedback, we devised a fine-grained annotation instruction encompassing four different aspects: instruction adherence, truthfulness, honesty, and usefulness. Subsequently, we employed GPT-4 to annotate the collected samples based on this instruction.
创建时间:
2023-08-18
原始信息汇总
数据集概述
UltraFeedback 是一个大规模、细粒度、多样化的偏好数据集,用于训练强大的奖励模型和批评模型。该数据集收集了约64,000个来自多种资源(包括UltraChat、ShareGPT、Evol-Instruct、TruthfulQA、FalseQA和FLAN)的提示,并使用这些提示查询多个大型语言模型(LLMs),为每个提示生成4种不同的响应,总计256,000个样本。
数据集特点
- 规模:包含64,000个提示,256,000个响应和高质量的反馈。研究人员可以进一步构建约340,000个比较对来训练他们的奖励模型。
- 多样性:数据集从各种来源收集提示,并查询了一系列多样化的开源和知名模型。为了进一步增加多样性,选择了不同的基础模型,如LLaMA、Falcon、StarChat、MPT、GPT和Bard,并应用了多种原则来激发模型以不同方式完成指令。
- 高密度:提供数值和文本反馈,并编写了细粒度的注释文档,帮助在所有维度上评价响应。
数据集构造
- 指令采样:从6个公开可用的高质量数据集中采样了63,967个指令。
- 模型采样:为了防止奖励模型过度拟合到特定的文本风格或捕捉文本风格与奖励之间的虚假相关性,选择了不同级别、大小、架构和训练数据的不同基础模型来完成指令。
- 原则采样:定义了一组原则,以明确地从不同方面对齐模型行为。
数据集格式
数据集的每个样本包含来源、指令、模型、正确答案、错误答案和完成项。每个完成项包括模型、原则、自定义系统提示、响应和注释。
数据集应用
- UltraRM:基于UltraFeedback训练并发布了一个奖励模型,用于进一步促进对齐研究。
- UltraCM:基于UltraFeedback训练并发布了一个批评模型,用于自动批评生成。
数据集示例
提供了一个用户与四个不同助手之间的交互示例,展示了数据集中的样本结构和内容。
搜集汇总
数据集介绍

构建方式
UltraFeedback数据集的构建过程体现了其在大规模、细粒度、多样性偏好数据收集方面的创新性。首先,从多个高质量公开数据集中采样了63,967条指令,涵盖了UltraChat、ShareGPT、Evol-Instruct、TruthfulQA、FalseQA和FLAN等来源。随后,通过查询17个不同的大语言模型,为每条指令生成4种不同的响应,最终形成了256,000个样本。为了确保反馈的高质量,设计了包含指令遵循、真实性、诚实性和帮助性四个维度的细粒度标注指令,并利用GPT-4对样本进行标注。
特点
UltraFeedback数据集以其规模、多样性和高密度反馈而著称。数据集包含64,000条指令和256,000条响应,为RLHF研究提供了约340,000个比较对。其多样性体现在指令来源的广泛性和模型选择的多样性上,涵盖了LLaMA、Falcon、StarChat、MPT、GPT和Bard等多种模型。此外,数据集不仅提供了数值评分,还包含了详细的文本反馈,帮助研究者在多个维度上评估模型表现。
使用方法
UltraFeedback数据集的使用方法主要围绕训练奖励模型和批评模型展开。研究者可以通过数据集中的比较对来训练奖励模型,利用细粒度的数值和文本反馈优化模型表现。此外,数据集还可用于评估模型在指令遵循、真实性、诚实性和帮助性等维度上的表现。通过加载HuggingFace平台上的数据集,研究者可以轻松访问和利用这些高质量数据,进一步推动语言模型的对齐研究。
背景与挑战
背景概述
UltraFeedback数据集由OpenBMB团队于2023年发布,旨在为语言模型的强化学习提供高质量、细粒度的偏好数据。该数据集包含约64,000个提示,通过查询多个大型语言模型生成256,000个响应,并由GPT-4进行细粒度标注,涵盖指令遵循、真实性、诚实性和帮助性四个维度。UltraFeedback的发布推动了奖励模型和批评模型的研究,特别是在语言模型对齐领域,其多样性和大规模特性为相关研究提供了丰富的数据支持。
当前挑战
UltraFeedback数据集在构建过程中面临多重挑战。首先,确保数据集的多样性和代表性是一个关键问题,团队通过从多个高质量数据源采样提示,并选择不同架构和规模的模型生成响应,以避免奖励模型过拟合。其次,细粒度标注的准确性依赖于GPT-4的标注能力,尽管GPT-4表现优异,但仍存在标注错误的风险,需通过人工复审和修正。此外,数据集中的整体评分与细粒度评分之间的不一致性也需通过重新标注和调整来解决,以确保数据的高质量。
常用场景
经典使用场景
UltraFeedback数据集在自然语言处理领域中被广泛应用于训练和评估奖励模型与批评模型。其大规模、细粒度和多样化的特性使其成为研究语言模型对齐和优化的理想选择。通过从多个来源收集提示,并生成多种响应,UltraFeedback为研究者提供了丰富的对比数据,帮助他们在模型训练过程中进行精细的调整和优化。
解决学术问题
UltraFeedback数据集解决了语言模型对齐中的关键问题,特别是在奖励模型和批评模型的训练中。通过提供高质量的偏好数据和细粒度的反馈,UltraFeedback帮助研究者更好地理解模型在不同维度(如指令遵循、真实性、诚实性和帮助性)上的表现。这不仅提升了模型的性能,还为语言模型的伦理对齐提供了重要的数据支持。
衍生相关工作
UltraFeedback数据集催生了一系列相关研究,特别是在语言模型对齐和优化领域。基于UltraFeedback训练的UltraRM和UltraCM模型在多个公开测试集上取得了领先的性能,推动了开源奖励模型和批评模型的发展。此外,UltraFeedback还为多轮对话系统的研究提供了新的数据基础,进一步拓展了其应用范围。
以上内容由遇见数据集搜集并总结生成



