zhengr/UltraFeedback

Name: zhengr/UltraFeedback
Creator: zhengr
Published: 2023-11-08 15:15:16
License: 暂无描述

Hugging Face2023-11-08 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/zhengr/UltraFeedback

下载链接

链接失效反馈

官方服务：

资源简介：

UltraFeedback是一个大规模、细粒度、多样化的偏好数据集，用于训练强大的奖励模型和批评模型。该数据集收集了约64k个来自不同资源（包括UltraChat、ShareGPT、Evol-Instruct、TruthfulQA、FalseQA和FLAN）的提示，并使用这些提示查询多个大型语言模型，生成每个提示的4个不同响应，总共产生256k个样本。为了收集高质量的偏好和文本反馈，设计了一个细粒度的注释指令，包含指令遵循、真实性、诚实性和帮助性四个不同方面，并使用GPT-4对收集的样本进行注释。

UltraFeedback is a large-scale, fine-grained, and diverse preference dataset tailored for training robust reward models and critic models. It gathers approximately 64k prompts from a wide range of sources including UltraChat, ShareGPT, Evol-Instruct, TruthfulQA, FalseQA, and FLAN. These prompts are utilized to query multiple large language models, producing four distinct responses per prompt, resulting in a total of 256k samples. To collect high-quality preference annotations and textual feedback, a fine-grained annotation guideline was developed, which encompasses four core dimensions: instruction following, factual accuracy, honesty, and helpfulness. All collected samples are annotated using GPT-4.

提供机构：

zhengr

原始信息汇总

数据集概述

简介

UltraFeedback 是一个大规模、细粒度、多样化的偏好数据集，用于训练强大的奖励模型和批评模型。该数据集收集了约 64k 个来自多种资源（包括 UltraChat、ShareGPT、Evol-Instruct、TruthfulQA、FalseQA 和 FLAN）的提示，并使用这些提示查询多个大型语言模型（LLMs），为每个提示生成 4 种不同的响应，总计 256k 个样本。

特点

规模：UltraFeedback 包含 64k 个提示、256k 个响应和 380k 个高质量反馈。RLHF 研究人员可以进一步构建约 100 万个比较对来训练他们的奖励模型。
多样性：作为偏好数据集，多样性是 UltraFeedback 的核心要求。数据集从多种来源收集提示，并查询多种最先进的开源和知名模型。为了进一步增加多样性，选择了不同的基础模型，如 LLaMA、Falcon、StarChat、MPT、GPT 和 Bard，并应用多种原则以不同的方式完成指令。
高密度：UltraFeedback 提供数值和文本反馈。此外，编写了细粒度的注释文档，以帮助在所有维度上评估响应。

数据集构建

指令采样

从 6 个公开可用的高质量数据集中采样了 63,967 条指令。包括 TruthfulQA 和 FalseQA 的所有指令，从 Evol-Instruct 和 UltraChat 中随机采样 10k 条指令，从 ShareGPT 中采样 20k 条指令。对于 Flan，采用分层采样策略，从“Co”子集中随机采样 3k 条指令，而对于其他三个子集，每个任务采样 10 条指令，排除那些指令过长的任务。

模型采样

为了防止奖励模型过度适应特定文本风格或捕捉文本风格与奖励之间的虚假相关性，选择了不同级别、不同大小、架构和训练数据的基础模型来完成指令。设置了一个包含 17 个模型的池：

商业模型：GPT-4、GPT-3.5 Turbo、Bard
LLaMA 系列：LLaMA-2-7B-chat、LLaMA-2-13B-chat、LLaMA-2-70B-chat、UltraLM-13B、UltraLM-65B、WizardLM-7B、WizardLM-13B、WizardLM-70B、Vicuna-33B、Alpaca-7B
非 LLaMA 系列：Falcon-40B-instruct、MPT-30B-chat、StarChat-Beta、Pythia-12B

原则采样

遵循 [1] 和 [2]，定义了一组原则以明确从不同方面对齐模型行为。设置了一个包含 5 个原则的池：Helpfulness、Truthfulness、Honesty、Verbalized Calibration 和 Harmless。对于每个指令，随机采样 4 个模型来完成指令，并为每个完成采样一个原则并添加到系统提示中以对齐模型行为。考虑到不同数据集的不同特点，并非所有数据集都适合所有原则。

数据集格式

数据集以 JSONC 格式存储，每个条目包含来源数据集、指令 ID、指令内容、采样的模型、每个模型的完成情况以及相应的注释。

数据集示例

提供了一个 UltraFeedback 的示例，展示了用户指令和四个不同模型的响应及其注释。

限制

尽管 GPT-4 可以为大多数样本提供良好对齐的注释和文本反馈，但必须注意 GPT-4 也会犯错并提供不准确的反馈。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，构建高质量偏好数据集对于训练奖励模型至关重要。UltraFeedback的构建过程体现了严谨的采样策略，从六个高质量公开数据源中精心选取了63,967条指令，并采用分层抽样确保指令多样性。为了生成响应，研究团队从包含17个不同架构、规模和训练数据的模型中随机选取四个模型对每条指令进行回复，有效避免了奖励模型对特定文本风格的过拟合。进一步地，通过引入帮助性、真实性、诚实性等五项对齐原则，并依据不同数据源特性分配原则权重，引导模型生成行为各异的响应，最终由GPT-4基于细粒度标注规范对每个响应进行多维度评估，形成了包含38万条高质量反馈的大规模数据集。

使用方法

该数据集主要服务于奖励模型与批判模型的训练优化。研究人员可直接利用其结构化标注数据，通过对比学习框架训练奖励模型，其中每一条指令对应的四个响应及其多维评分构成了天然的比较对。对于批判模型训练，丰富的文字反馈为模型提供了学习生成解释性评价的优质素材。在实际应用中，建议先根据任务需求对数据源进行筛选，例如专注对话任务时可优先选用ShareGPT和UltraChat子集。由于数据集已提供GPT-4的自动化标注，使用者既可将其作为监督信号直接使用，也可将其作为高质量种子数据，结合人工校验进行迭代优化，以构建更可靠的评估体系。

背景与挑战

背景概述

UltraFeedback数据集由清华大学自然语言处理与社会人文计算实验室（THUNLP）于2023年发布，旨在构建一个大规模、细粒度且多样化的偏好数据集，以训练强大的奖励模型和批评模型。该数据集的核心研究问题聚焦于提升大型语言模型在指令遵循、真实性、诚实性和帮助性等多维度的对齐能力，通过整合来自UltraChat、ShareGPT、Evol-Instruct等六种高质量数据源的提示，并利用包括GPT-4、LLaMA系列在内的17种前沿模型生成响应，最终借助GPT-4进行精细标注。这一创新性工作为强化学习从人类反馈（RLHF）领域提供了关键的数据支撑，推动了语言模型对齐技术向更高效、更可靠的方向演进。

当前挑战

UltraFeedback数据集致力于解决语言模型对齐中的核心挑战，即如何准确评估模型在多维度人类价值观上的表现，并避免奖励模型过度拟合特定文本风格或捕捉虚假相关性。在构建过程中，研究团队面临的主要挑战包括：确保提示来源的多样性与代表性，以覆盖广泛的应用场景；平衡不同模型架构与训练数据带来的响应差异，防止标注偏差；设计细粒度的标注指令以实现对指令遵循、真实性等复杂属性的可靠量化。此外，依赖GPT-4进行自动化标注虽提升了效率，但其固有的错误率与局限性可能引入标注噪声，影响下游模型训练的稳定性与泛化能力。

常用场景

经典使用场景

在大型语言模型对齐研究领域，UltraFeedback数据集以其大规模、细粒度和多样化的特性，成为训练奖励模型和批评模型的经典资源。该数据集通过整合来自多个高质量来源的提示，并利用多种前沿模型生成响应，为研究者提供了丰富的偏好标注数据。其核心应用场景在于支持基于人类反馈的强化学习（RLHF）流程，通过构建数百万对比较样本，帮助模型学习更符合人类价值观的响应生成策略，从而提升语言模型在指令遵循、真实性、诚实性和帮助性等多维度的表现。

解决学术问题

UltraFeedback数据集有效应对了语言模型对齐研究中数据稀缺与标注粒度不足的挑战。传统偏好数据集往往规模有限或标注维度单一，难以全面捕捉人类复杂偏好。该数据集通过GPT-4进行多维度细粒度标注，覆盖了指令遵循、真实性、诚实性和帮助性四个关键方面，为奖励模型训练提供了高密度、高质量的监督信号。这不仅促进了模型对齐技术的精细化发展，也为探索多目标偏好平衡、减少模型幻觉等前沿问题提供了坚实的数据基础，推动了对齐研究从粗放式优化向精准可控方向的演进。

实际应用

在实际应用层面，UltraFeedback数据集为开发更安全、可靠且实用的对话系统提供了关键支持。基于该数据集训练的奖励模型和批评模型，可被集成到各类AI助手的部署流程中，用于实时评估和优化生成内容的质量。例如，在客服对话、教育辅导、内容创作等场景中，系统能够依据多维度的反馈自动调整响应，确保输出既准确有用，又符合伦理规范。此外，该数据集也为企业定制领域专用语言模型提供了对齐基准，有助于降低模型输出有害或错误信息的风险，提升终端用户体验和信任度。

数据集最近研究