five

UltraFeedback|机器学习数据集|自然语言处理数据集

收藏
github2023-12-30 更新2024-05-31 收录
机器学习
自然语言处理
下载链接:
https://github.com/OpenBMB/UltraFeedback
下载链接
链接失效反馈
资源简介:
UltraFeedback是一个大规模、细粒度、多样化的偏好数据集,用于训练强大的奖励模型和批评模型。我们收集了来自多种资源的大约64k个提示,使用这些提示查询多个大型语言模型,并为每个提示生成4种不同的响应,总计256k个样本。为了收集高质量的偏好和文本反馈,我们设计了一个包含4个不同方面的细粒度标注指令:指令遵循、真实性、诚实性和有用性。然后,我们使用GPT-4根据该指令对收集的样本进行标注。

UltraFeedback is a large-scale, fine-grained, and diverse preference dataset designed for training robust reward models and critique models. We collected approximately 64k prompts from various sources, queried multiple large language models using these prompts, and generated four distinct responses for each prompt, resulting in a total of 256k samples. To gather high-quality preferences and textual feedback, we devised a fine-grained annotation instruction encompassing four different aspects: instruction adherence, truthfulness, honesty, and usefulness. Subsequently, we employed GPT-4 to annotate the collected samples based on this instruction.
创建时间:
2023-08-18
原始信息汇总

数据集概述

UltraFeedback 是一个大规模、细粒度、多样化的偏好数据集,用于训练强大的奖励模型和批评模型。该数据集收集了约64,000个来自多种资源(包括UltraChat、ShareGPT、Evol-Instruct、TruthfulQA、FalseQA和FLAN)的提示,并使用这些提示查询多个大型语言模型(LLMs),为每个提示生成4种不同的响应,总计256,000个样本。

数据集特点

  • 规模:包含64,000个提示,256,000个响应和高质量的反馈。研究人员可以进一步构建约340,000个比较对来训练他们的奖励模型。
  • 多样性:数据集从各种来源收集提示,并查询了一系列多样化的开源和知名模型。为了进一步增加多样性,选择了不同的基础模型,如LLaMA、Falcon、StarChat、MPT、GPT和Bard,并应用了多种原则来激发模型以不同方式完成指令。
  • 高密度:提供数值和文本反馈,并编写了细粒度的注释文档,帮助在所有维度上评价响应。

数据集构造

  • 指令采样:从6个公开可用的高质量数据集中采样了63,967个指令。
  • 模型采样:为了防止奖励模型过度拟合到特定的文本风格或捕捉文本风格与奖励之间的虚假相关性,选择了不同级别、大小、架构和训练数据的不同基础模型来完成指令。
  • 原则采样:定义了一组原则,以明确地从不同方面对齐模型行为。

数据集格式

数据集的每个样本包含来源、指令、模型、正确答案、错误答案和完成项。每个完成项包括模型、原则、自定义系统提示、响应和注释。

数据集应用

  • UltraRM:基于UltraFeedback训练并发布了一个奖励模型,用于进一步促进对齐研究。
  • UltraCM:基于UltraFeedback训练并发布了一个批评模型,用于自动批评生成。

数据集示例

提供了一个用户与四个不同助手之间的交互示例,展示了数据集中的样本结构和内容。

AI搜集汇总
数据集介绍
main_image_url
构建方式
UltraFeedback数据集的构建过程体现了其在大规模、细粒度、多样性偏好数据收集方面的创新性。首先,从多个高质量公开数据集中采样了63,967条指令,涵盖了UltraChat、ShareGPT、Evol-Instruct、TruthfulQA、FalseQA和FLAN等来源。随后,通过查询17个不同的大语言模型,为每条指令生成4种不同的响应,最终形成了256,000个样本。为了确保反馈的高质量,设计了包含指令遵循、真实性、诚实性和帮助性四个维度的细粒度标注指令,并利用GPT-4对样本进行标注。
特点
UltraFeedback数据集以其规模、多样性和高密度反馈而著称。数据集包含64,000条指令和256,000条响应,为RLHF研究提供了约340,000个比较对。其多样性体现在指令来源的广泛性和模型选择的多样性上,涵盖了LLaMA、Falcon、StarChat、MPT、GPT和Bard等多种模型。此外,数据集不仅提供了数值评分,还包含了详细的文本反馈,帮助研究者在多个维度上评估模型表现。
使用方法
UltraFeedback数据集的使用方法主要围绕训练奖励模型和批评模型展开。研究者可以通过数据集中的比较对来训练奖励模型,利用细粒度的数值和文本反馈优化模型表现。此外,数据集还可用于评估模型在指令遵循、真实性、诚实性和帮助性等维度上的表现。通过加载HuggingFace平台上的数据集,研究者可以轻松访问和利用这些高质量数据,进一步推动语言模型的对齐研究。
背景与挑战
背景概述
UltraFeedback数据集由OpenBMB团队于2023年发布,旨在为语言模型的强化学习提供高质量、细粒度的偏好数据。该数据集包含约64,000个提示,通过查询多个大型语言模型生成256,000个响应,并由GPT-4进行细粒度标注,涵盖指令遵循、真实性、诚实性和帮助性四个维度。UltraFeedback的发布推动了奖励模型和批评模型的研究,特别是在语言模型对齐领域,其多样性和大规模特性为相关研究提供了丰富的数据支持。
当前挑战
UltraFeedback数据集在构建过程中面临多重挑战。首先,确保数据集的多样性和代表性是一个关键问题,团队通过从多个高质量数据源采样提示,并选择不同架构和规模的模型生成响应,以避免奖励模型过拟合。其次,细粒度标注的准确性依赖于GPT-4的标注能力,尽管GPT-4表现优异,但仍存在标注错误的风险,需通过人工复审和修正。此外,数据集中的整体评分与细粒度评分之间的不一致性也需通过重新标注和调整来解决,以确保数据的高质量。
常用场景
经典使用场景
UltraFeedback数据集在自然语言处理领域中被广泛应用于训练和评估奖励模型与批评模型。其大规模、细粒度和多样化的特性使其成为研究语言模型对齐和优化的理想选择。通过从多个来源收集提示,并生成多种响应,UltraFeedback为研究者提供了丰富的对比数据,帮助他们在模型训练过程中进行精细的调整和优化。
解决学术问题
UltraFeedback数据集解决了语言模型对齐中的关键问题,特别是在奖励模型和批评模型的训练中。通过提供高质量的偏好数据和细粒度的反馈,UltraFeedback帮助研究者更好地理解模型在不同维度(如指令遵循、真实性、诚实性和帮助性)上的表现。这不仅提升了模型的性能,还为语言模型的伦理对齐提供了重要的数据支持。
衍生相关工作
UltraFeedback数据集催生了一系列相关研究,特别是在语言模型对齐和优化领域。基于UltraFeedback训练的UltraRM和UltraCM模型在多个公开测试集上取得了领先的性能,推动了开源奖励模型和批评模型的发展。此外,UltraFeedback还为多轮对话系统的研究提供了新的数据基础,进一步拓展了其应用范围。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

2017-2020年内蒙古当地杂豆的原料特性及生物活性物质分析数据集

参照国标对内蒙古当地的豌豆、赤小豆、绿豆、红芸豆及扁豆等五种杂豆的原料特性和生物活性物质含量进行测定,并进行对比分析。

国家农业科学数据中心 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。

github 收录

Nexdata/chinese_dialect

该数据集包含25,000小时的中文方言语音数据,收集自多个方言区域的本地方言使用者,涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件,单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别(ASR)和音频说话人识别。

hugging_face 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录