allenai/swag

Name: allenai/swag
Creator: allenai
Published: 2024-06-14 10:21:05
License: 暂无描述

Hugging Face2024-06-14 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/allenai/swag

下载链接

链接失效反馈

官方服务：

资源简介：

SWAG（Situations With Adversarial Generations）是一个大规模的数据集，旨在解决基于常识的推理任务，将自然语言推理与物理基础推理相结合。该数据集包含113,000个关于基础情境的多项选择题（73,000个用于训练，20,000个用于验证，20,000个用于测试）。每个问题都是来自LSMDC或ActivityNet Captions的视频字幕，有四个关于场景中接下来可能发生什么的答案选项。正确答案是视频中下一个事件的（真实）视频字幕；三个错误答案是对抗生成的，并经过人工验证，以便欺骗机器但不欺骗人类。SWAG旨在成为评估基于常识的自然语言推理和学习表示的基准。

提供机构：

allenai

原始信息汇总

数据集卡片：Situations With Adversarial Generations

数据集描述

数据集概述

SWAG（Situations With Adversarial Generations）是一个大规模的数据集，用于基于常识的推理任务，结合了自然语言推理和物理基础推理。数据集包含113k个关于基础场景的多项选择题（73k训练，20k验证，20k测试）。每个问题是一个来自LSMDC或ActivityNet Captions的视频字幕，有四个关于场景中接下来可能发生什么的答案选项。正确答案是视频中下一个事件的真实视频字幕；三个不正确的答案是敌对生成的并经过人工验证，以便欺骗机器而不是人类。SWAG旨在成为一个评估基础常识NLI和学习表示的基准。

支持的任务和排行榜

数据集引入了基于常识推理的任务，统一了自然语言推理和常识推理。

语言

数据集中的文本是英语。相关的BCP-47代码是en。

数据集结构

数据实例

regular配置应被用于建模。一个示例如下：

json { "video-id": "anetv_dm5WXFiQZUQ", "fold-ind": "18419", "startphrase": "He rides the motorcycle down the hall and into the elevator. He", "sent1": "He rides the motorcycle down the hall and into the elevator.", "sent2": "He", "gold-source": "gold", "ending0": "looks at a mirror in the mirror as he watches someone walk through a door.", "ending1": "stops, listening to a cup of coffee with the seated woman, whos standing.", "ending2": "exits the building and rides the motorcycle into a casino where he performs several tricks as people watch.", "ending3": "pulls the bag out of his pocket and hands it to someones grandma.", "label": 2 }

注意，测试集保留用于在排行榜上的盲提交。

数据字段

video-id: 标识符
fold-ind: 标识符
startphrase: 待填充的上下文
sent1: 第一句话
sent2: 第二句话的开始（待填充）
gold-source: 生成或来自发现的完成
ending0: 第一个选项
ending1: 第二个选项
ending2: 第三个选项
ending3: 第四个选项
label: 正确的选项

数据分割

数据集包含113k个多项选择题关于基础场景：73k用于训练，20k用于验证，20k用于（盲）测试。

数据集创建

策划理由

作者寻求数据集多样性同时最小化注释伪影，条件风格模式如长度和词偏好偏差。为了避免引入容易“被游戏”的模式，他们引入了敌对过滤（AF），一种一般适用的处理方法，涉及对一组分配的迭代细化，以增加在选定模型家族下的熵。数据集随后由付费众包人员进行人工验证。

源数据

初始数据收集和规范化

数据集源自ActivityNet Captions和Large Scale Movie Description Challenge中的连续视频字幕对。这两个数据集在性质上略有不同，使我们能够实现更广泛的覆盖：ActivityNet包含20k个YouTube剪辑，包含203种活动类型（如做体操或弹吉他）；LSMDC包含128k个电影字幕（音频描述和剧本）。

注释

注释过程

注释首先由机器生成，然后进行敌对过滤。最后，剩余的示例由付费众包人员进行人工验证。

使用数据的注意事项

数据集的社会影响

[更多信息需要]

偏差的讨论

[更多信息需要]

其他已知限制

[更多信息需要]

附加信息

数据集策展人

[更多信息需要]

许可信息

未知

引用信息

bibtex @inproceedings{zellers2018swagaf, title={SWAG: A Large-Scale Adversarial Dataset for Grounded Commonsense Inference}, author={Zellers, Rowan and Bisk, Yonatan and Schwartz, Roy and Choi, Yejin}, booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing (EMNLP)", year={2018} }

贡献

感谢@VictorSanh添加此数据集。

搜集汇总

数据集介绍

构建方式

SWAG（Situations With Adversarial Generations）数据集旨在推动基于物理世界的常识推理研究，其构建过程融合了自动化生成与人工验证的协同策略。首先，从ActivityNet Captions和LSMDC两个视频描述数据集中提取连续的视频字幕对作为候选样本。随后，采用对抗性过滤（Adversarial Filtering）技术，通过迭代优化候选答案集合，在给定模型家族下最大化熵值，以消除条件性风格模式（如长度和词汇偏好）带来的伪影。最终，经过对抗性过滤的样本由付费众包工作者进行人工验证，确保机器难以攻克而人类易于辨识，从而构建出包含约11.3万道多选题的高质量基准。

特点

该数据集的核心特点在于其对抗性生成与人工验证的双重保障机制，显著提升了常识推理任务的挑战性与可靠性。每个样本由一段视频字幕作为上下文，并配备四个候选结局，其中唯一正确答案源自视频中真实的下一个事件描述，而三个错误答案则通过对抗性过滤精心设计，旨在迷惑模型却难不倒人类。数据集分为full和regular两种配置，前者提供详细的收集过程元数据，后者则直接用于建模，包含训练集（73,546例）、验证集（20,006例）和测试集（20,005例），覆盖多样化的物理场景，如体操、吉他演奏等203种活动类型，从而在自然语言推理与物理常识推理的交叉领域树立了标杆。

使用方法

使用SWAG数据集时，推荐采用regular配置进行模型训练与评估。数据以JSON格式存储，每条记录包含video-id、startphrase、sent1、sent2、四个候选结局（ending0至ending3）以及指示正确答案的label字段（取值范围0至3）。用户可通过HuggingFace Datasets库直接加载，例如使用`load_dataset('allenai/swag', 'regular')`命令获取预划分的数据集。训练时，模型需基于给定的起始短语（startphrase）从四个选项中选出最合理的续写，这本质上是多选文本分类任务。测试集则需通过盲提交至官方排行榜进行性能评估，以衡量模型在接地常识推理上的泛化能力。

背景与挑战

背景概述

在自然语言处理领域，常识推理与物理世界理解的结合始终是极具挑战性的研究方向。由Rowan Zellers、Yonatan Bisk、Roy Schwartz和Yejin Choi等研究者于2018年提出的SWAG（Situations With Adversarial Generations）数据集，旨在弥合自然语言推理与基于物理情境的常识推断之间的鸿沟。该数据集源自ActivityNet Captions和LSMDC中的视频描述对，通过构建113k个多项选择问题，要求模型根据给定场景描述预测后续事件。SWAG的核心创新在于采用对抗性过滤与人工验证相结合的方法生成干扰项，显著提升了数据集的难度与真实性，已成为评估模型在接地常识推理能力方面的标杆性基准，对推动视觉与语言融合研究产生了深远影响。

当前挑战

SWAG数据集所应对的核心挑战在于如何使模型具备类似人类的接地常识推理能力，即从部分场景描述出发，准确推断出合乎物理规律与逻辑的后续发展。现有模型常受限于注释伪影或风格偏差，难以在复杂情境中做出稳健推断。在数据集构建过程中，研究者面临的挑战包括：从海量视频描述中提取高质量连续事件对，确保样本多样性；设计对抗性过滤算法以迭代生成高难度干扰项，避免简单模式被模型利用；同时依赖众包人员进行人工验证，平衡数据规模与标注质量。此外，如何防止模型依赖长度或词汇偏好等表面线索，而是真正理解情境的语义内涵，仍是该领域持续探索的难题。

常用场景

经典使用场景

SWAG数据集的核心用途在于评估和推动模型在接地常识推理（grounded commonsense inference）任务上的表现。该任务要求模型基于给定的场景描述（如视频字幕片段），从多个候选选项中选出最合理的后续事件。例如，给定“她打开了汽车引擎盖”，模型需推断出“她检查了发动机”而非其他干扰项。这一场景融合了自然语言推理与物理世界常识，是对模型理解动态情境与因果关系的严苛考验。

实际应用

在实际应用中，SWAG所评估的接地常识推理能力对于构建智能交互系统至关重要。例如，在自动驾驶辅助系统中，模型需预测行人或车辆的下一个动作；在智能家居场景中，设备需理解用户行为序列并主动提供协助。此外，该数据集还可用于提升视频理解与描述生成系统的连贯性，使AI能更自然地预测和解释动态视觉场景中的事件演变。

衍生相关工作

SWAG数据集催生了多项经典后续研究。例如，HellaSwag数据集进一步扩展了对抗性过滤的规模与难度，成为评估大语言模型常识推理的标杆；此外，基于SWAG的任务设计启发了CommonsenseQA等数据集，推动模型从静态知识向动态情境推理的演进。在模型层面，BERT等预训练语言模型通过在此基准上的表现验证了其深层语义捕获能力，而后续的GPT系列则进一步展示了大规模生成模型在推理任务中的潜力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集