zhengr/UltraFeedback
收藏数据集概述
简介
UltraFeedback 是一个大规模、细粒度、多样化的偏好数据集,用于训练强大的奖励模型和批评模型。该数据集收集了约 64k 个来自多种资源(包括 UltraChat、ShareGPT、Evol-Instruct、TruthfulQA、FalseQA 和 FLAN)的提示,并使用这些提示查询多个大型语言模型(LLMs),为每个提示生成 4 种不同的响应,总计 256k 个样本。
特点
- 规模:UltraFeedback 包含 64k 个提示、256k 个响应和 380k 个高质量反馈。RLHF 研究人员可以进一步构建约 100 万个比较对来训练他们的奖励模型。
- 多样性:作为偏好数据集,多样性是 UltraFeedback 的核心要求。数据集从多种来源收集提示,并查询多种最先进的开源和知名模型。为了进一步增加多样性,选择了不同的基础模型,如 LLaMA、Falcon、StarChat、MPT、GPT 和 Bard,并应用多种原则以不同的方式完成指令。
- 高密度:UltraFeedback 提供数值和文本反馈。此外,编写了细粒度的注释文档,以帮助在所有维度上评估响应。
数据集构建
指令采样
从 6 个公开可用的高质量数据集中采样了 63,967 条指令。包括 TruthfulQA 和 FalseQA 的所有指令,从 Evol-Instruct 和 UltraChat 中随机采样 10k 条指令,从 ShareGPT 中采样 20k 条指令。对于 Flan,采用分层采样策略,从“Co”子集中随机采样 3k 条指令,而对于其他三个子集,每个任务采样 10 条指令,排除那些指令过长的任务。
模型采样
为了防止奖励模型过度适应特定文本风格或捕捉文本风格与奖励之间的虚假相关性,选择了不同级别、不同大小、架构和训练数据的基础模型来完成指令。设置了一个包含 17 个模型的池:
- 商业模型:GPT-4、GPT-3.5 Turbo、Bard
- LLaMA 系列:LLaMA-2-7B-chat、LLaMA-2-13B-chat、LLaMA-2-70B-chat、UltraLM-13B、UltraLM-65B、WizardLM-7B、WizardLM-13B、WizardLM-70B、Vicuna-33B、Alpaca-7B
- 非 LLaMA 系列:Falcon-40B-instruct、MPT-30B-chat、StarChat-Beta、Pythia-12B
原则采样
遵循 [1] 和 [2],定义了一组原则以明确从不同方面对齐模型行为。设置了一个包含 5 个原则的池:Helpfulness、Truthfulness、Honesty、Verbalized Calibration 和 Harmless。对于每个指令,随机采样 4 个模型来完成指令,并为每个完成采样一个原则并添加到系统提示中以对齐模型行为。考虑到不同数据集的不同特点,并非所有数据集都适合所有原则。
数据集格式
数据集以 JSONC 格式存储,每个条目包含来源数据集、指令 ID、指令内容、采样的模型、每个模型的完成情况以及相应的注释。
数据集示例
提供了一个 UltraFeedback 的示例,展示了用户指令和四个不同模型的响应及其注释。
限制
尽管 GPT-4 可以为大多数样本提供良好对齐的注释和文本反馈,但必须注意 GPT-4 也会犯错并提供不准确的反馈。




