WANLI

Name: WANLI
Creator: 华盛顿大学计算机科学与工程学院
Published: 2022-11-15 08:42:00
License: 暂无描述

arXiv2022-11-15 更新2024-06-21 收录

下载链接：

https://wanli.allenai.org/

下载链接

链接失效反馈

官方服务：

资源简介：

WANLI数据集是由华盛顿大学计算机科学与工程学院的研究人员开发的，通过结合语言模型GPT-3和人工标注创建的自然语言推理（NLI）数据集。该数据集包含107,885个示例，旨在通过机器与人工的协作提高NLI任务的性能。WANLI数据集通过自动识别具有挑战性的推理模式，并指导GPT-3生成类似示例，然后通过自动过滤和人工标注进行优化。该数据集的应用领域包括提高模型在多种NLI测试集上的性能，特别是在处理域外和对抗性示例时的鲁棒性。

The WANLI dataset is a natural language inference (NLI) dataset developed by researchers from the Paul G. Allen School of Computer Science & Engineering at the University of Washington. It is constructed by integrating the large language model GPT-3 and human annotations, and contains a total of 107,885 examples. The dataset aims to improve the performance of NLI tasks through collaboration between machines and humans. Its optimization workflow involves first automatically identifying challenging inference patterns, guiding GPT-3 to generate analogous examples, followed by automatic filtering and manual annotation. Potential applications of the WANLI dataset include enhancing model performance across multiple NLI test sets, particularly improving model robustness when handling out-of-domain and adversarial examples.

提供机构：

华盛顿大学计算机科学与工程学院

创建时间：

2022-01-16

搜集汇总

数据集介绍

构建方式

在自然语言推理领域，传统众包数据集常因模式重复而缺乏语言多样性。WANLI采用一种创新的工人与人工智能协作框架，以MultiNLI为初始数据集，通过数据地图技术自动识别具有挑战性推理模式的示例，并利用GPT-3生成具有相似模式的新示例。生成内容经过自动过滤后，由人类众包工作者进行修订和标注，最终形成包含107,885个示例的高质量数据集。

特点

WANLI数据集展现出独特的实证优势，其规模虽仅为MultiNLI的四分之一，但在多个域外测试集上表现卓越。该数据集有效减少了已知的虚假相关性，其前提与假设之间的语义相似度分布更为重叠，降低了模型对表面线索的依赖。此外，WANLI包含了大量由机器生成、经人类修订的示例，这些示例在推理模式上更具多样性和挑战性，有助于提升模型的泛化能力。

使用方法

WANLI适用于自然语言推理任务的模型训练与评估。研究人员可直接使用其训练集对模型进行微调，以提升模型在复杂推理模式上的性能。该数据集的测试集可用于评估模型在域外场景下的鲁棒性。此外，WANLI的构建方法为数据集创建提供了新范式，可推广至其他分类任务，用于 rejuvenating 现有数据集，特别是在模型因过拟合而性能停滞时。

背景与挑战

背景概述

自然语言推理（NLI）作为自然语言处理领域的核心任务之一，旨在判断前提与假设之间的语义关系。然而，传统众包数据集常因标注者依赖重复模式而缺乏语言多样性，导致模型泛化能力受限。为此，华盛顿大学与艾伦人工智能研究所的研究团队于2022年提出了WANLI数据集，通过创新的人机协作范式，结合GPT-3的生成能力与人类标注者的评估智慧，基于MultiNLI数据集构建了包含107,885个样本的高质量NLI资源。该数据集不仅显著提升了模型在多个跨域测试集上的性能，更为数据集构建方法论提供了全新视角，推动了NLI领域向更稳健、更具泛化性的方向发展。

当前挑战

WANLI数据集致力于解决自然语言推理任务中模型因数据偏见而导致的泛化瓶颈。其核心挑战在于如何突破传统众包数据中重复模式与虚假关联的局限，构建具有丰富推理多样性的样本。在构建过程中，研究团队面临多重技术难题：首先，需精准识别原始数据中蕴含挑战性推理模式的模糊样本，并确保生成模型能有效复现这些模式；其次，自动过滤机制需在保留高价值样本的同时剔除低质量生成内容；最后，人机协作框架需平衡机器生成效率与人类修订质量，避免修订过程重新引入标注偏差。这些挑战共同指向了数据集构建中质量、多样性与可扩展性的复杂权衡。

常用场景

经典使用场景

在自然语言推理领域，WANLI数据集以其独特的人机协作生成机制，成为评估模型泛化能力的经典基准。该数据集通过结合GPT-3的生成能力与人类标注者的评估智慧，系统性地构建了涵盖复杂推理模式的样本，尤其擅长揭示模型对语言现象深层理解的缺陷。研究者常利用WANLI训练NLI模型，以检验其在对抗性样本和跨领域测试集上的稳健性，例如在HANS和Adversarial NLI等挑战性基准上的表现提升，体现了数据集在推动模型超越表面模式匹配方面的核心价值。

衍生相关工作

WANLI的发布激发了系列围绕数据生成与增强的研究。其基于数据地图的样本筛选方法被扩展至其他分类任务的数据集优化中，例如在文本分类和情感分析领域探索歧义样本的价值。同时，该工作推动了对生成模型在数据创建中角色的重新思考，促进了如TAILOR、Z-Aug等数据增强技术的比较研究，并为后续探索更精细的人机协作机制——如在低资源语言或跨模态任务中的应用——奠定了方法论基础。

数据集最近研究