openai/webgpt_comparisons|自然语言处理数据集|问答系统数据集

hugging_face2022-12-19 更新2024-03-04 收录

自然语言处理

问答系统

下载链接：

https://hf-mirror.com/datasets/openai/webgpt_comparisons

下载链接

链接失效反馈

资源简介：

--- pretty_name: WebGPT Comparisons --- # Dataset Card for WebGPT Comparisons ## Dataset Description In the [WebGPT paper](https://arxiv.org/abs/2112.09332), the authors trained a reward model from human feedback. They used the reward model to train a long form question answering model to align with human preferences. This is the dataset of all comparisons that were marked as suitable for reward modeling by the end of the WebGPT project. There are 19,578 comparisons in total. Each example in the dataset contains a pair of model answers for a question, and the associated metadata. Each answer has a preference score from humans that can be used to determine which of the two answers are better. Overall, an example has the following fields: * `question`: The text of the question, together with the name of the dataset from which it was taken and a unique ID. * `quotes_0`: The extracts that the model found while browsing for `answer_0`, together with the title of the page on which the extract was found, constructed from the HTML title and domain name of the page. * `answer_0`: The final answer that the model composed using `quotes_0`. * `tokens_0`: The prefix that would have been given to the model in the final step of the episode to create `answer_0`, and the completion given by the model or human. The prefix is made up of the question and the quotes, with some truncation, and the completion is simply the answer. Both are tokenized using the GPT-2 tokenizer. The concatenation of the prefix and completion is the input used for reward modeling. * `score_0`: The strength of the preference for `answer_0` over `answer_1` as a number from −1 to 1. It sums to 0 with `score_1`, and an answer is preferred if and only if its score is positive. For reward modeling, we treat scores of 0 as soft 50% labels, and all other scores as hard labels (using only their sign). * `quotes_1`: The counterpart to `quotes_0`. * `answer_1`: The counterpart to `answer_0`. * `tokens_1`: The counterpart to `tokens_0`. * `score_1`: The counterpart to `score_0`. This information was found in Appendix K of the WebGPT paper. ## Citation Information [https://arxiv.org/abs/2112.09332](https://arxiv.org/abs/2112.09332) ``` @inproceedings{nakano2021webgpt, author = {Reiichiro Nakano and Jacob Hilton and Suchir Balaji and Jeff Wu and Long Ouyang and Christina Kim and Christopher Hesse and Shantanu Jain and Vineet Kosaraju and William Saunders and Xu Jiang and Karl Cobbe and Tyna Eloundou and Gretchen Krueger and Kevin Button and Matthew Knight and Benjamin Chess and John Schulman}, title = {WebGPT: Browser-assisted question-answering with human feedback}, booktitle = {arXiv}, year = 2021, } ``` Dataset added to the Hugging Face Hub by [@Tristan](https://huggingface.co/Tristan) and [@natolambert](https://huggingface.co/natolambert)

提供机构：

openai

原始信息汇总

数据集卡片 for WebGPT Comparisons

数据集描述

该数据集包含WebGPT项目中所有被标记为适合奖励建模的比较。总共有19,578个比较。每个示例包含一对针对某个问题的模型答案及其相关元数据。每个答案都有一个来自人类的偏好分数，用于确定两个答案中哪个更好。

每个示例包含以下字段：

question：问题的文本，以及问题来源的数据集名称和唯一ID。
quotes_0：模型在浏览以生成answer_0时找到的摘录，以及摘录所在页面的标题（由页面的HTML标题和域名构成）。
answer_0：模型使用quotes_0编写的最终答案。
tokens_0：在生成answer_0的最后一步中会提供给模型的前缀，以及模型或人类给出的完成。前缀由问题和引用组成，并进行了一些截断，完成部分就是答案。两者都使用GPT-2分词器进行分词。前缀和完成的连接是用于奖励建模的输入。
score_0：answer_0相对于answer_1的偏好强度，取值范围为-1到1。它与score_1之和为0，当且仅当其分数为正时，答案被偏好。对于奖励建模，我们将分数为0视为软50%标签，所有其他分数视为硬标签（仅使用其符号）。
quotes_1：与quotes_0对应。
answer_1：与answer_0对应。
tokens_1：与tokens_0对应。
score_1：与score_0对应。

这些信息来自WebGPT论文的附录K。

AI搜集汇总

数据集介绍

构建方式

WebGPT Comparisons数据集的构建基于对WebGPT论文中人类反馈训练的奖励模型的应用。该数据集收集了在WebGPT项目结束时被标记为适合奖励模型的所有比较，总计包含19,578个比较实例。每个实例由一对针对同一问题的模型答案及其相关元数据组成，其中每个答案都有一个来自人类的偏好分数，用于确定两个答案中哪一个更佳。

特点

该数据集的特点在于其包含了详细的元数据，每个实例都包括问题文本、答案来源的摘录、最终答案、用于生成答案的输入令牌以及偏好分数。偏好分数是一个介于-1到1之间的数值，表示对两个答案的偏好强度。特别地，分数为0被视为软50%标签，其他分数则根据符号作为硬标签处理，这一特性使得数据集在奖励模型训练中具有独特优势。

使用方法

使用WebGPT Comparisons数据集时，研究者可以依据提供的偏好分数进行奖励模型的训练。数据集中的实例格式允许模型直接从问题、摘录和偏好分数中学习，为模型提供了一种与人类偏好对齐的有效途径。此外，该数据集的元数据结构为研究提供了丰富的上下文信息，有助于深入理解模型答案的生成过程。

背景与挑战

背景概述

WebGPT Comparisons数据集源于对WebGPT模型训练过程中的奖励模型进行研究的背景下构建。该数据集由Reiichiro Nakano等研究人员于2021年在openai的框架下创建，旨在通过人类反馈训练出的奖励模型来训练一种长篇问答模型，以符合人类偏好。数据集包含了在WebGPT项目结束时被认为适合用于奖励模型的所有比较，总计19,578个比较实例。此数据集为研究人机交互、自然语言处理和机器学习领域提供了宝贵的资源，对于推动相关技术的发展具有重要意义。

当前挑战

WebGPT Comparisons数据集构建过程中面临的挑战主要包括：1) 如何准确捕捉并量化人类偏好，将其转化为机器可理解的奖励信号；2) 在处理大量文本数据时，如何保证数据的质量和一致性，以及处理可能存在的偏差和噪音；3) 构建能够适应长篇问答场景的模型，并确保模型输出的答案能够与人类偏好相一致。这些挑战对于提升模型在实际应用中的性能至关重要。

常用场景

经典使用场景

在深度学习领域，尤其是自然语言处理任务中，WebGPT Comparisons数据集的运用至关重要。该数据集通过人类反馈训练奖励模型，进而优化长篇问答模型的输出，以符合人类偏好。其经典的使用场景在于为模型提供一对问题的答案，并通过人类给出的偏好分数来评判哪一个答案更佳，从而进行模型的奖励建模训练。

衍生相关工作

基于WebGPT Comparisons数据集的研究衍生出了众多相关的工作，如进一步探索模型奖励机制、人类反馈的整合方式以及模型输出的多样性和准确性。这些研究推动了自然语言处理领域的发展，并为构建更加智能、高效的AI系统提供了新的思路和方法。

数据集最近研究

最新研究方向

在自然语言处理领域，OpenAI的WebGPT Comparisons数据集正引领着模型训练与人类偏好对齐的前沿研究方向。该数据集源自WebGPT项目，包含19,578个经人工标注，适用于奖励模型训练的比较案例。每个案例包含一对问题答案及其元数据，并伴有来自人类的偏好评分，以判断两个答案中哪个更佳。这一研究方向的突破在于，通过奖励模型，研究者能够训练出更符合人类期望的长篇问答模型，从而推动人机交互向更深层次的智能化发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国近海台风路径集合数据集(1945-2024)

1945-2024年度，中国近海台风路径数据集，包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据，经过处理整合后形成文件，如使用csv文件需使用文本编辑器打开浏览，否则会出现乱码，如要使用excel查看数据，请使用xlsx的格式。

国家海洋科学数据中心收录

Global Wind Atlas (GWA)

Global Wind Atlas (GWA) 是一个全球风能资源数据集，提供了高分辨率的风速和风能密度数据。该数据集覆盖全球范围，包括陆地和海洋，旨在支持风能项目的规划和评估。数据集提供了多种风速和风能密度指标，以及风向和风能分布图。

globalwindatlas.info 收录

心脑血管体检数据集

心脑血管体检数据集是基于多年心脑血管疾病研究和体检数据积累，开发的一项数据集。该数据集包括血液黏度、胆固醇结晶、甘油三脂、血管阻力、血管弹性、心肌血液需量、心肌血液灌注量、心脏每分钟耗氧量、每搏心搏出量、左心室喷血阻抗、左心室有效泵力、冠状动脉弹性、冠状动脉灌注压、脑血管弹性、脑组织供血、大脑微循环、脑动脉硬化等体检数据，可用于心脑血管疾病的风险评估、辅助诊断、预后判断和治疗决策等。

陕西省数据知识产权登记服务平台收录

yolo-datasets

深度学习目标检测数据集/分割数据集最全最完整的数据集集合，包含电力电气领域、航空影像输电线路与输电塔分割、电力遥感风力发电机、安全带和安全绳检测、变压器漏油故障诊断、高压输电线故障检测、光伏热红外缺陷、风电光伏功率数据、变电站火灾、输电线路语义分割、配网缺陷检测、变电站设备目标检测、太阳能光伏电池板缺陷、pcb电路板检测、绝缘体检测、输电线路防震锤缺陷、电线冰雪覆盖、电力工程电网施工现场安全作业、螺丝识别检测、变电站电力设备的可见光和红外图像、无人机航拍输电线路悬垂线夹、电线线路表面损害、氧化锌避雷器破损识别、热斑光伏发电系统红外热图像等多个领域的数据集。

github 收录

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录