nyu-mll/multi_nli

Hugging Face2024-01-04 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/nyu-mll/multi_nli

下载链接

链接失效反馈

资源简介：

Multi-Genre Natural Language Inference (MultiNLI) 数据集是一个包含433,000个句子对的众包数据集，这些句子对标注了文本蕴含信息。该数据集基于SNLI语料库，但涵盖了多种口语和书面文本的体裁，并支持跨体裁的泛化评估。数据集主要用于文本分类任务，特别是自然语言推理和多输入文本分类。数据集的语言为英语，大小为100K<n<1M，且为单语言数据集。数据集的创建目的是为了评估模型在训练领域内的句子表示质量以及在不熟悉领域内推导合理表示的能力。

Multi-Genre Natural Language Inference (MultiNLI) dataset is a crowdsourced dataset containing 433,000 sentence pairs annotated with textual entailment labels. Built upon the SNLI corpus, this dataset covers a diverse range of spoken and written text genres and supports cross-genre generalization evaluation. It is primarily used for text classification tasks, particularly natural language inference and multi-input text classification. The dataset is in English, with a size of 100K < n < 1M, and is a monolingual dataset. It was developed to evaluate the quality of sentence representations of models within the training domain, as well as their ability to derive reasonable representations in unfamiliar domains.

提供机构：

nyu-mll

原始信息汇总

数据集概述

名称: Multi-Genre Natural Language Inference (MultiNLI)

语言: 英语

许可证:

cc-by-3.0
cc-by-sa-3.0
mit
other

多语言性: 单语

大小: 100K<n<1M

源数据: 原始

任务类别: 文本分类

任务ID:

natural-language-inference
multi-input-text-classification

论文代码ID: multinli

美观名称: Multi-Genre Natural Language Inference

数据集结构

数据实例

数据集包含以下字段：

promptID: 整数类型，唯一标识符
pairID: 字符串类型，唯一标识符
premise: 字符串类型
premise_binary_parse: 字符串类型
premise_parse: 字符串类型
hypothesis: 字符串类型
hypothesis_binary_parse: 字符串类型
hypothesis_parse: 字符串类型
genre: 字符串类型
label: 分类标签，包括entailment (0), neutral (1), contradiction (2)

数据分割

训练集: 392702个实例
验证匹配集: 9815个实例
验证不匹配集: 9832个实例

数据集创建

源数据

数据收集: 通过从现有文本源选择前提句，并要求人工注释者编写与之配对的新句子作为假设。

许可证详情

开放部分: 美国国家语料库的许可证
小说部分: 多种许可，包括Creative Commons Share-Alike 3.0 Unported License和Creative Commons Attribution 3.0 Unported Licenses

引用信息

@InProceedings{N18-1101, author = "Williams, Adina and Nangia, Nikita and Bowman, Samuel", title = "A Broad-Coverage Challenge Corpus for Sentence Understanding through Inference", booktitle = "Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers)", year = "2018", publisher = "Association for Computational Linguistics", pages = "1112--1122", location = "New Orleans, Louisiana", url = "http://aclweb.org/anthology/N18-1101" }

搜集汇总

数据集介绍

构建方式

Multi-Genre Natural Language Inference (MultiNLI) 数据集的构建基于众包方式，通过从现有文本源中选择前提句，并由人工注释者创作与之配对的假设句，形成句子对。这些句子对随后被标注为蕴含、中立或矛盾三类关系，从而形成一个包含433k句子对的语料库。该数据集的设计旨在评估模型在训练域内外的句子表示质量，特别强调跨域泛化的能力。

特点

MultiNLI 数据集的主要特点在于其跨域泛化的设计，涵盖了多种口语和书面文本类型，支持在不同领域间进行模型评估。此外，数据集提供了详细的句子解析信息，包括二叉树解析和PCFG解析，这为研究者提供了丰富的语义分析工具。数据集的标注质量高，且包含明确的训练、验证和测试分割，便于模型训练和评估。

使用方法

使用 MultiNLI 数据集时，研究者可以利用其提供的训练集进行模型训练，并通过验证集和测试集进行性能评估。数据集的结构清晰，包含前提句、假设句及其解析信息，以及标注的蕴含关系。研究者可以根据需要选择不同的数据分割，如匹配验证集和非匹配验证集，以评估模型在不同领域的表现。此外，数据集的标注信息可以直接用于监督学习任务，如自然语言推理和多输入文本分类。

背景与挑战

背景概述

Multi-Genre Natural Language Inference (MultiNLI) 数据集是由纽约大学 (NYU) 的 Samuel Bowman 教授及其团队创建的，旨在推动自然语言推理 (NLI) 领域的研究。该数据集于2018年发布，包含433,000对句子，通过众包方式进行标注，涵盖了多种文本类型，包括口语和书面语。MultiNLI 数据集的构建基于 SNLI 数据集，但特别强调了跨领域泛化的评估，为自然语言处理领域提供了一个广泛覆盖的挑战性语料库，支持了2017年 EMNLP 会议上的 RepEval 共享任务。

当前挑战

MultiNLI 数据集面临的挑战主要集中在两个方面：一是如何确保在不同文本类型和领域中的泛化能力，这要求模型不仅在训练域内表现良好，还需在未见过的领域中保持合理的表现；二是数据集构建过程中，如何有效地进行众包标注，确保标注的一致性和准确性。此外，数据集的多样性也带来了处理复杂性和计算资源的需求，尤其是在处理大规模文本数据时，如何高效地进行模型训练和评估也是一个重要的挑战。

常用场景

经典使用场景

在自然语言处理领域，Multi-Genre Natural Language Inference (MultiNLI) 数据集被广泛用于文本蕴含任务。该数据集通过收集433k对句子，标注了文本间的蕴含关系，包括蕴含、中立和矛盾三种类别。研究者利用此数据集训练和评估模型在不同文本类型中的表现，特别是在跨领域文本蕴含识别中的泛化能力。

解决学术问题

MultiNLI数据集解决了自然语言推理任务中的跨领域泛化问题。通过提供多种文本类型的句子对，该数据集帮助研究者开发能够在不同领域间迁移知识的模型，从而提升模型的鲁棒性和适应性。这对于推动自然语言处理技术在实际应用中的广泛适用性具有重要意义。

衍生相关工作

基于MultiNLI数据集，研究者们开发了多种自然语言推理模型，如BERT、RoBERTa等，这些模型在多个基准测试中表现优异。此外，MultiNLI还启发了其他类似数据集的创建，如XNLI，它扩展了MultiNLI的多语言支持，进一步推动了跨语言自然语言推理的研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集