Adversarial NLI (ANLI)|自然语言处理数据集|对抗性训练数据集

arXiv2020-05-07 更新2024-07-25 收录

自然语言处理

对抗性训练

下载链接：

https://github.com/facebookresearch/anli

下载链接

链接失效反馈

资源简介：

Adversarial NLI（ANLI）是由Facebook AI Research开发的大规模自然语言理解数据集，包含162,865条数据，通过迭代的人机交互过程收集，旨在提高模型在NLI任务上的性能。数据集通过让非专家注释者设计能够欺骗当前最佳模型的例子来收集，这些例子随后被用于训练更强大的模型。ANLI数据集不仅比现有基准更难，而且提供了一个动态目标，而非静态基准，以持续推动NLI系统的进步。该数据集适用于研究模型在面对复杂语言推理时的表现，以及如何通过对抗性训练提高模型的鲁棒性。

提供机构：

Facebook AI Research

创建时间：

2019-11-01

原始信息汇总

Adversarial NLI 数据集概述

数据集版本

版本 1.0 可在此处获取：https://dl.fbaipublicfiles.com/anli/anli_v1.0.zip

数据格式

数据文件为 JSONL 格式（每行一个 JSON 对象）。
每个示例包含以下字段：
- uid：唯一标识符。
- premise：前提。
- hypothesis：假设。
- label：标签。
- reason：解释标签的原因。

示例

json { "uid": "8a91e1a2-9a32-4fd9-b1b6-bd2ee2287c8f", "premise": "Javier Torres (born May 14, 1988 in Artesia, California) is an undefeated Mexican American professional boxer in the Heavyweight division. Torres was the second rated U.S. amateur boxer in the Super Heavyweight division and a member of the Mexican Olympic team.", "hypothesis": "Javier was born in Mexico", "label": "c", "reason": "The paragraph states that Javier was born in the California, US." }

字段说明

reason 字段：在 dev 和 test 数据集中，每个示例都包含 reason 字段，部分 train 数据集示例也包含此字段。该字段由标注者提供，解释为何该陈述属于特定类别以及为何对系统来说较难判断。

验证标签

dev 和 test 数据集中的所有示例都由 2 或 3 名验证者（如果前两名验证者意见不一致）进行验证。
额外的验证标签可在 verifier_labels/verifier_labels_R1-3.jsonl 获取。

错误分析

数据集的深入错误分析可在此处获取：https://github.com/facebookresearch/anli/tree/main/anlizinganli
使用细粒度标注方案，对推理的不同方面进行标注，以解释黄金分类标签。

引用

数据集

@inproceedings{nie-etal-2020-adversarial, title = "Adversarial {NLI}: A New Benchmark for Natural Language Understanding", author = "Nie, Yixin and Williams, Adina and Dinan, Emily and Bansal, Mohit and Weston, Jason and Kiela, Douwe", booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics", year = "2020", publisher = "Association for Computational Linguistics", }

错误分析标注

@article{williams-etal-2020-anlizing, title = "ANLIzing the Adversarial Natural Language Inference Dataset", author = "Adina Williams and Tristan Thrush and Douwe Kiela", booktitle = "Proceedings of the 5th Annual Meeting of the Society for Computation in Linguistics", year = "2022", publisher = "Association for Computational Linguistics", }

AI搜集汇总

数据集介绍

构建方式

Adversarial NLI (ANLI) 数据集的构建采用了迭代式的人机对抗循环方法（HAMLET）。首先，人类标注者根据给定的上下文和目标标签，生成能够误导当前最佳模型的假设。随后，这些假设被提交给模型进行预测，若模型预测错误，则该假设被验证并加入训练集。验证过程由其他人类标注者进行，确保假设的正确性。每一轮数据收集后，模型会被重新训练，并生成新的测试集。此过程可无限迭代，使得数据集和模型不断进化，形成一个动态的挑战目标。

使用方法

ANLI 数据集的使用方法主要包括模型训练和评估。研究人员可以使用该数据集训练自然语言推理模型，并通过其测试集评估模型的鲁棒性和泛化能力。由于数据集具有对抗性，训练后的模型在面对其他自然语言推理任务时表现出更强的性能。此外，ANLI 还可用于研究模型在不同推理类型上的表现，帮助识别和解决模型的特定弱点。数据集的动态性使其适用于持续学习和模型改进的场景。

背景与挑战

背景概述

Adversarial NLI (ANLI) 数据集由Yixin Nie、Adina Williams等研究人员于2020年提出，旨在通过一种迭代的、对抗性的人类与模型协同工作流程，构建一个更具挑战性的自然语言推理（NLI）基准数据集。该数据集的核心研究问题在于如何通过对抗性样本揭示当前最先进的自然语言理解（NLU）模型的弱点，并推动模型在复杂推理任务中的表现。ANLI的创建标志着NLI领域的一个重要进展，它不仅提升了模型在现有基准上的表现，还通过动态的、持续更新的数据集设计，避免了传统静态基准的快速饱和问题。该数据集由Facebook AI Research和UNC Chapel Hill的研究团队共同开发，其影响力在于为NLU领域提供了一个长期有效的评估工具。

当前挑战

ANLI数据集在解决自然语言推理任务时面临多重挑战。首先，该数据集旨在通过对抗性样本揭示当前模型的弱点，这要求模型不仅能够处理常规的推理任务，还需具备处理复杂、模糊或反直觉的推理场景的能力。其次，数据集的构建过程本身也面临挑战，包括如何设计有效的对抗性样本生成流程、如何确保样本的多样性和复杂性，以及如何通过多轮迭代不断提升数据集的难度。此外，ANLI的构建还涉及大量的人工验证工作，以确保样本的正确性和质量，这进一步增加了数据集的构建难度。这些挑战使得ANLI成为一个动态且持续演进的基准，为NLU领域的研究提供了新的方向。

常用场景

经典使用场景

Adversarial NLI (ANLI) 数据集在自然语言理解（NLU）领域中被广泛用于评估和提升模型的推理能力。该数据集通过人类与模型对抗的方式生成，旨在暴露当前最先进模型的弱点。研究人员通常使用ANLI来训练和测试模型，以验证其在复杂推理任务中的表现。ANLI的独特之处在于其动态生成过程，每一轮数据集的难度逐渐增加，使得模型在不断挑战中提升其推理能力。

解决学术问题

ANLI数据集解决了自然语言推理（NLI）领域中模型过度依赖数据集中的统计模式而非真正理解语义的问题。通过对抗性生成的数据，ANLI揭示了当前模型在处理复杂推理任务时的局限性，尤其是在处理反事实推理、词汇替换和复杂句法结构时的不足。该数据集为研究人员提供了一个更具挑战性的基准，推动了模型在推理能力上的进步。

实际应用

在实际应用中，ANLI数据集被用于提升对话系统、问答系统和文本理解模型的鲁棒性。例如，在智能客服系统中，模型需要准确理解用户的复杂问题并给出合理的回答。通过使用ANLI进行训练，模型能够更好地处理用户提出的反事实或复杂推理问题，从而提高系统的用户体验。此外，ANLI还可用于教育领域，帮助开发更智能的语言学习工具。

数据集最近研究