Anthropic Helpful-Harmless (HH-RLHF), Ultrafeedback (ULTRAFEEDBACK), LMSYS Arena Preferences (LMSYS), PKU-SafeRLHF (SAFERLHF)|强化学习数据集|语言模型数据集

arXiv2024-09-15 更新2024-09-18 收录

强化学习

语言模型

下载链接：

http://arxiv.org/abs/2409.09603v1

下载链接

链接失效反馈

资源简介：

本文研究了四个公开的偏好数据集，包括Anthropic Helpful-Harmless (HH-RLHF)、Ultrafeedback (ULTRAFEEDBACK)、LMSYS Arena Preferences (LMSYS)和PKU-SafeRLHF (SAFERLHF)。这些数据集用于训练奖励模型，以支持从人类反馈中进行强化学习（RLHF）。数据集的内容包括提示、两个响应和一个标注，表明哪个响应更受偏好。数据集的创建过程涉及人工或合成生成，旨在解决语言模型与人类偏好对齐的问题。

提供机构：

斯坦福大学

创建时间：

2024-09-15

AI搜集汇总

数据集介绍

构建方式

该数据集的构建方式主要基于对人类偏好的系统性研究。具体而言，数据集包括四个公开可用的偏好数据集：Anthropic Helpful-Harmless (HH-RLHF)、Ultrafeedback (ULTRAFEEDBACK)、LMSYS Arena Preferences (LMSYS) 和 PKU-SafeRLHF (SAFERLHF)。这些数据集的选择基于其在先前研究中的频繁使用。每个数据集都包含示例，其中包括一个提示、两个响应以及一个标注，指示哪个响应更受偏好。数据集的构建过程涉及对不同领域的偏好数据进行收集和整理，确保数据的多样性和代表性。

特点

该数据集的主要特点在于其多样性和广泛的应用领域。首先，数据集涵盖了从代码生成到聊天对话、问答系统等多个领域，确保了数据的广泛适用性。其次，数据集的生成过程包括了人工和合成两种方式，增加了数据的丰富性和复杂性。此外，数据集的大小从10k到300k不等，提供了不同规模的数据样本，便于研究者在不同情境下进行实验和分析。最后，数据集的标注质量较高，通过多重标注确保了数据的准确性和可靠性。

使用方法

该数据集主要用于训练和评估基于人类反馈的强化学习（RLHF）中的奖励模型。研究者可以使用这些数据集来训练奖励模型，通过比较不同响应的偏好来优化模型的性能。具体使用方法包括：首先，根据提示生成两个响应；然后，使用奖励模型对这两个响应进行评分；最后，根据评分结果调整模型参数，以提高模型在生成响应时的准确性和用户满意度。此外，数据集还可用于研究不同数据集对奖励模型训练效果的影响，以及如何通过数据集的优化来提升模型的泛化能力。

背景与挑战

背景概述

在现代大型语言模型（LLM）的训练流程中，强化学习从人类反馈（RLHF）通常是最后阶段[1, 2, 3]。RLHF算法所需的奖励模型主要通过成对偏好数据集进行训练[4, 5]。尽管已有大量研究致力于从偏好数据中学习新算法以更好地训练奖励模型[6, 7, 8, 9]，但相对较少的工作探讨了这些数据集本身的特性。所有这些成对的人类偏好数据集至少包含以下示例：1）提示，2）两个响应，以及3）标注出哪个响应更受偏好。除了这种基本结构外，偏好数据集在领域（如代码、聊天、问答等）、生成过程（如合成与人类生成）、收集程序（如标注、提示生成）以及规模（如10k - 300k示例[7, 10]）方面差异很大。理想情况下，可以为每个特定应用收集定制的偏好数据集，并由多个标注者仔细标注以进行奖励模型训练。最新的技术报告强调了偏好数据质量的重要性，但很少提供有关使用的偏好数据集的详细信息[11, 12]。在公开可用的偏好数据集中，有一种民间智慧认为更精心策划的数据集更好，但除了汇总统计数据（如标记计数[8]）外，没有严格的比较这些数据集的方法。目前，人们对何时以及为什么一个偏好数据集可能优于另一个数据集知之甚少，也不知道在这些数据集的背景下“更好”意味着什么。

当前挑战

定义偏好数据的数据质量对于奖励模型训练来说非常复杂，因为许多不同的任务可能使用相同的奖励模型进行RLHF。存在对偏好代表性的担忧，以及收集的数据与预期目标之间的对齐问题[27, 28, 29]。一种衡量奖励模型有效性的建议是通过在各种常见任务上的标准化基准测试[30]。这种方法通过测试每个奖励模型在评分所选响应更高方面的表现来衡量单个奖励模型在不同任务上的泛化能力。在这个基准排行榜上表现最佳的模型包括从8B到340B参数的各种大小，以及从10k到超过700k示例的各种偏好数据大小。鉴于这种多样化的方法，理解如何衡量偏好数据质量以进行RLHF的奖励模型步骤非常重要。这项工作旨在描述偏好数据质量的元素，这些元素在数据生成、标注和在此设置中的使用方面提供了实用的决策信息。

常用场景

经典使用场景

在自然语言处理领域，Anthropic Helpful-Harmless (HH-RLHF), Ultrafeedback (ULTRAFEEDBACK), LMSYS Arena Preferences (LMSYS), 和 PKU-SafeRLHF (SAFERLHF) 数据集被广泛用于训练奖励模型，这些模型是强化学习从人类反馈（RLHF）算法的核心组成部分。这些数据集通过提供成对的偏好数据，帮助模型学习如何根据人类的偏好进行响应。经典的使用场景包括在对话系统、问答系统和代码生成等任务中，通过比较模型生成的两个响应，选择更符合人类偏好的答案，从而优化模型的表现。

解决学术问题

这些数据集解决了在训练大型语言模型（LLM）时如何有效利用人类反馈的关键问题。传统的LLM训练主要依赖于大规模的预训练数据，而RLHF则通过引入人类偏好数据，使得模型能够更好地理解和模拟人类的偏好。这不仅提高了模型的实用性和用户满意度，还为研究者提供了一种新的方法来评估和改进模型的行为。此外，这些数据集还帮助解决了数据质量和数据选择的问题，通过系统地研究数据集的规模、标签噪声和信息内容，为RLHF的数据收集和训练效率提供了科学依据。

衍生相关工作

基于这些数据集的研究工作衍生出了许多相关的经典研究。例如，研究者们提出了多种算法来从偏好数据中更有效地学习奖励模型，如Ted Moskovitz等人提出的约束RLHF方法，以及Rui Zheng等人对PPO算法的深入研究。此外，Nathan Lambert等人提出的Rewardbench基准测试，为评估奖励模型在不同任务上的表现提供了标准化的工具。这些工作不仅推动了RLHF技术的发展，还为未来的研究提供了丰富的理论和实践基础。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录

PDT Dataset

PDT数据集是由山东计算机科学中心（国家超级计算济南中心）和齐鲁工业大学（山东省科学院）联合开发的无人机目标检测数据集，专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本，共计5775张图像，涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注，旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术，旨在提高无人机在植物保护中的目标识别精度，解决传统检测模型在实际应用中的不足。

arXiv 收录

MMAUD

MMAUD数据集是由南洋理工大学电气与电子工程学院创建，专注于小型无人机的检测、分类和轨迹估计。该数据集结合了多种传感器输入，包括立体视觉、多种激光雷达、雷达和音频阵列，以高保真度模拟真实世界场景。MMAUD提供了由Leica生成的精确地面实况数据，增强了数据集的可信度，并支持算法的精确和高效开发。数据集的应用领域包括无人机威胁检测、分类和轨迹估计，旨在解决现代微型无人机威胁带来的挑战。

arXiv 收录

微博与抖音评论数据集

数据集源自微博平台与抖音平台的评论信息，基于两个热点事件来对评论等信息进行爬取收集形成数据集。原数据一共3W5条，但消极评论与中立评论远远大于积极评论。因此作特殊处理后，积极数据2601条，消极数据2367条，中立数据2725条，共7693条数据。

github 收录