five

openai/summarize_from_feedback|自然语言处理数据集|机器学习数据集

收藏
hugging_face2023-01-03 更新2024-03-04 收录
自然语言处理
机器学习
下载链接:
https://hf-mirror.com/datasets/openai/summarize_from_feedback
下载链接
链接失效反馈
资源简介:
在《Learning to Summarize from Human Feedback》论文中,研究人员从人类反馈中训练了一个奖励模型,该模型随后用于训练摘要模型以符合人类偏好。此数据集是为此奖励模型发布的人类反馈数据。数据集分为两部分:comparisons和axis。在comparisons部分,人类注释者被要求从两个摘要中选择最佳摘要。在axis部分,人类注释者对摘要的质量进行了评分。comparisons部分仅包含训练和验证分割,而axis部分仅包含测试和验证分割。用于训练奖励模型的摘要来自TL;DR数据集,额外的验证和测试数据来自TL;DR数据集、CNN文章和Daily Mail文章。
提供机构:
openai
原始信息汇总

数据集概述

数据集名称

  • pretty_name: Summarize from Feedback

数据集描述

  • 来源与目的: 该数据集源自论文《Learning to Summarize from Human Feedback》,用于训练奖励模型,进而训练出符合人类偏好的摘要模型。
  • 数据集组成:
    • comparisons: 人类标注者从两个摘要中选择最佳的一个。
    • axis: 人类标注者对摘要的质量进行Likert量表评分。
  • 数据集分割:
    • comparisons 部分包含训练集和验证集。
    • axis 部分包含测试集和验证集。
  • 数据来源: 训练奖励模型的摘要数据来自TL;DR数据集,额外的验证和测试数据来自TL;DR数据集、CNN文章和Daily Mail文章。

引用信息

  • 论文: Learning to Summarize from Human Feedback
  • 作者: Nisan Stiennon, Long Ouyang, Jeff Wu, Daniel M. Ziegler, Ryan Lowe, Chelsea Voss, Alec Radford, Dario Amodei, Paul Christiano
  • 发表年份: 2020
  • 会议: NeurIPS
AI搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,特别是在文本摘要任务中,本数据集的构建采取了一种基于人类反馈的奖励模型训练方式。该模型首先通过人类标注者的反馈进行训练,进而用于指导摘要模型的训练,以使其与人类偏好保持一致。数据集分为两部分:`comparisons`与`axis`。在`comparisons`部分,标注者需要在两个摘要中选择一个更优的;而在`axis`部分,则是对一个摘要的质量进行李克特量表评分。训练奖励模型所使用的摘要源自TL;DR数据集,而额外的验证和测试数据则来自TL;DR数据集、CNN文章以及Daily Mail文章。
特点
本数据集的特点在于,它提供了直接的人类偏好反馈,这对于训练与人类偏好相符的模型至关重要。`comparisons`部分的数据通过人类标注者的直接选择,为模型训练提供了明确的偏好指示;`axis`部分的数据则通过量化评分,为模型提供了质量评估的细致维度。此外,数据集的来源多样性,使其具有较好的泛化能力,能够适应不同领域的文本摘要任务。
使用方法
使用本数据集时,研究者可以将其分为训练集和验证集,针对`comparisons`和`axis`两部分分别进行不同的训练策略。对于`comparisons`部分,模型需学习如何根据人类偏好选择更优的摘要;对于`axis`部分,模型则需学习如何根据李克特量表评分提升摘要质量。通过这样的训练方式,可以有效地提升模型在文本摘要任务上的表现,尤其是在符合人类偏好方面。
背景与挑战
背景概述
在自然语言处理领域,自动文摘是研究的热点之一,它旨在自动生成文档的简洁摘要。Summarize from Feedback数据集,源自于2020年Nisan Stiennon等研究人员在NeurIPS上发表的论文《Learning to Summarize from Human Feedback》,该数据集的构建旨在通过人类的反馈训练奖励模型,进而训练出与人类偏好相一致的文章摘要模型。该数据集包含了人类反馈的两部分:比较(comparisons)和评分(axis),为研究者在文摘生成领域的探索提供了宝贵的资源,对相关技术的发展产生了重要影响。
当前挑战
Summarize from Feedback数据集在构建过程中面临的挑战主要包括:如何精确捕捉并量化人类对摘要质量的偏好,以及如何利用这些反馈有效地训练模型。在所解决的领域问题上,该数据集的挑战在于如何实现高度自动化且符合人类主观评价标准的摘要生成。此外,构建过程中还需克服数据标注的一致性和质量控制的难题,确保模型训练的可靠性和有效性。
常用场景
经典使用场景
在自然语言处理领域,摘要生成模型的研究与应用至关重要。'Summarize from Feedback'数据集为此提供了有力支撑,其经典使用场景在于,通过人类反馈训练出的奖励模型,进一步指导摘要模型的训练,使其能够生成更符合人类偏好的摘要。
实际应用
在实际应用中,该数据集可被用于改进新闻摘要、文献综述、内容提炼等场景,使得信息获取更为高效精准。它对于提升机器生成的文本质量,满足用户个性化信息需求,具有显著的应用价值。
衍生相关工作
基于此数据集,研究者们开展了多项衍生工作,如进一步探索更复杂的奖励模型、设计更加精细化的评价体系等,这些研究为自然语言处理领域的发展提供了新的视角和方法论。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

stanford_cars

该数据集是一个包含多个汽车品牌和型号的图片数据集,每个图片样本都标记有相应的汽车品牌和型号信息。数据集适用于图像识别和分类任务,特别是汽车品牌和型号的识别。

huggingface 收录

Granary

Granary是一个包含25种欧洲语言的大规模语音识别和翻译数据集,由NVIDIA等多家机构联合创建。数据集通过伪标签技术生成,旨在解决低资源语言的语音处理问题。数据集包含约643,237.57小时的语音数据,经过精心筛选和处理,旨在提高数据质量并减少数据中的错误。该数据集可用于自动语音识别(ASR)和自动语音翻译(AST)等领域的研究,有助于提高语音模型在低资源语言上的准确性和鲁棒性。

arXiv 收录

UAVDT Dataset

The authors constructed a new UAVDT Dataset focused on complex scenarios with new level challenges. Selected from 10 hours raw videos, about 80, 000 representative frames are fully annotated with bounding boxes as well as up to 14 kinds of attributes (e.g., weather condition, flying altitude, camera view, vehicle category, and occlusion) for three fundamental computer vision tasks: object detection, single object tracking, and multiple object tracking.

datasetninja.com 收录

中国区域250米植被覆盖度数据集(2000-2024)

该数据集是中国区域2000至2024年月度植被覆盖度产品,空间分辨率250米,合成方式采用月最大值合成,每年12期,共299期。本产品采用基于归一化植被指数(NDVI)像元二分模型,根据土地利用类型确定纯植被像元值和纯裸土像元值,实现植被覆盖度计算。本产品去除湖泊、河流、冰川/永久积雪等区域。其中,NDVI数据来源于国家青藏高原科学数据中心中国区域250米归一化植被指数数据集(2000-2024)产品。通过时空变化趋势分析检验法分析,该数据集符合时间变化趋势和空间变化趋势。该数据集能够为全国区域生态质量评价、重要生态空间调查评估等工作提供数据参考。

国家青藏高原科学数据中心 收录

DUO (Detecting Underwater Objects)

检测水下物体 (DUO) 包含一组具有更合理注释的不同水下图像。相应的基准测试为学术研究和工业应用提供了 SOTA(在 MMDtection 框架下)的效率和准确性指标,其中 JETSON AGX XAVIER 用于评估检测器速度以模拟机器人嵌入式环境。

OpenDataLab 收录