NLI_datasets

github2022-12-14 更新2024-05-31 收录

下载链接：

https://github.com/felipessalvatore/NLI_datasets

下载链接

链接失效反馈

官方服务：

资源简介：

自然语言推理数据集，包含多个子数据集，如FRACAS、RTE、COPA和WNLI，用于自然语言理解和推理任务。

This natural language inference dataset contains multiple sub-datasets including FRACAS, RTE, COPA and WNLI, and is designed for natural language understanding and reasoning tasks.

创建时间：

2019-07-03

原始信息汇总

数据集概述

FRACAS

类型: NLI 数据集
年份: 1996
来源: 原始数据来自 https://nlp.stanford.edu/~wcmac/downloads/fracas.xml，经过处理，将 P1, ..Pn 作为 premise，H 作为 hypothesis，label 定义为 {yes: "entailment", no: contradiction, undef: "neutral", unknown: "neutral"}。数据集随机分为 80/20 的训练/验证集。

RTE

类型: RTE 数据集
年份: 2006, 2007, 2009 (由 RTE1, RTE2, RTE3, RTE5 创建)
来源: 原始数据集信息未详细说明，但提到了多个年份的版本。

COPA

类型: RTE 数据集
年份: 21 March 2011 (从 http://people.ict.usc.edu/~gordon/copa.html 构建)
修改: 对原始数据集进行了标签转换，将 "neutral" 改为 "not_entailment"，"entailment" 保持不变。

WNLI

类型: RTE 数据集
年份: January 2012 (由 The Winograd Schema Challenge 创建)
来源: 原始数据集信息未详细说明。

SICK

类型: NLI 数据集
年份: 2014
来源: 原始数据集未能找到，使用了两个 GitHub 仓库获取了 10K 示例。

SNLI

类型: NLI 数据集
年份: 2015
来源: 原始数据集信息未详细说明。

Add-one RTE

类型: RTE 数据集
年份: 15 Aug 2016
来源: 原始数据集信息未详细说明。

QNLI

类型: RTE 数据集
年份: 11 October 2016 (由 The Standford Question Answering Dataset 创建)
来源: 原始数据集信息未详细说明。

MNLI

类型: NLI 数据集
年份: 18 Apr 2017
来源: 原始数据集信息未详细说明。

JOCI

类型: NLI 数据集
年份: 2 Jun 2017
修改: 对数据集进行了标签定义，如 0-1: contradiction, 2-4: neutral, 5: entailment。
来源: 原始数据集未能找到，仅在 http://decomp.io/data/ 找到部分数据。

IIE

类型: RTE 数据集
年份: 27 NOV 2017
来源: 数据收集自 http://decomp.io/projects/diverse-natural-language-inference/。

MPE

类型: NLI 数据集
年份: 27 NOV 2017
来源: 原始数据集信息未详细说明。

Scitail

类型: RTE 数据集
年份: 27 Apr 2018
修改: 对标签进行了更改，将 "neutral" 改为 "not_entailment"，"entailment" 保持不变。
来源: 原始数据集信息未详细说明。

Commitment Bank

类型: NLI 数据集
年份: 2019 (从 https://github.com/mcdm/CommitmentBank 构建)
来源: 原始数据集信息未详细说明。

搜集汇总

数据集介绍

构建方式

NLI_datasets的构建基于多个自然语言推理（NLI）和文本蕴含（RTE）任务的数据集，涵盖了从1996年至2019年的多个经典数据集。每个数据集均通过提取前提（premise）和假设（hypothesis）对，并标注其蕴含关系（entailment、contradiction、neutral）来构建。部分数据集如FRACAS和COPA经过格式转换，将原始数据重新组织为统一的CSV格式，便于后续处理。数据集的划分通常采用80/20的比例进行训练集和开发集的随机分割，确保模型的泛化能力。

特点

NLI_datasets的特点在于其多样性和广泛性，涵盖了多个领域的自然语言推理任务。数据集不仅包括经典的NLI任务（如SNLI、MNLI），还包含从科学问答（SciTail）到常识推理（JOCI）等特定领域的任务。每个数据集均经过精心标注，标签清晰且逻辑严谨，能够有效支持模型的训练与评估。此外，部分数据集如COPA和Scitail经过格式和标签的调整，使其更符合现代NLI任务的需求。

使用方法

NLI_datasets的使用方法较为灵活，适用于多种自然语言理解任务。用户可以通过加载CSV格式的数据文件，直接获取前提、假设及其对应的标签。数据集可用于训练和评估自然语言推理模型，如BERT、RoBERTa等预训练模型。开发者可以根据任务需求选择特定的数据集进行微调，或通过组合多个数据集进行多任务学习。此外，数据集的分割方式（如80/20的训练/开发集）也为模型的验证和调优提供了便利。

背景与挑战

背景概述

NLI_datasets 是一个专注于自然语言推理（Natural Language Inference, NLI）任务的数据集集合，涵盖了多个子数据集，如FRACAS、RTE、COPA、WNLI、SICK、SNLI等。这些数据集最早可追溯至1996年，由多个研究团队和机构共同创建，旨在解决文本蕴含、矛盾和中立关系的识别问题。NLI任务的核心在于判断一个前提（premise）是否蕴含、矛盾或与假设（hypothesis）无关。这些数据集在自然语言处理领域具有重要影响力，推动了诸如BERT、GPT等预训练语言模型的发展，并为文本理解、问答系统等应用提供了基础支持。

当前挑战

NLI_datasets 面临的挑战主要体现在两个方面。首先，NLI任务本身具有较高的复杂性，要求模型不仅理解句子的表面语义，还需捕捉深层次的逻辑关系和常识推理。例如，某些假设可能依赖于隐含的背景知识，这对模型的推理能力提出了更高要求。其次，数据集的构建过程中也面临诸多挑战，如标注一致性、数据来源的多样性以及跨领域适应性等。部分数据集（如SICK、JOCI）由于原始数据难以获取，研究者不得不依赖多个来源进行整合，这可能导致数据质量的不一致性。此外，不同数据集之间的标签定义和任务设置存在差异，增加了模型泛化和跨数据集评估的难度。

常用场景

经典使用场景

NLI_datasets广泛应用于自然语言推理（NLI）任务，特别是在文本蕴含、矛盾和中立关系的识别中。这些数据集通过提供前提和假设的配对，帮助模型学习如何从给定的前提中推断出假设的正确性。经典的使用场景包括在自然语言理解（NLU）任务中，评估模型是否能够准确判断两个句子之间的逻辑关系。

实际应用

在实际应用中，NLI_datasets被广泛用于构建智能问答系统、自动摘要生成和对话系统。例如，在智能客服中，系统可以通过分析用户问题与知识库中的前提，判断用户的需求是否被满足。此外，这些数据集还被用于教育领域，帮助开发自动评分系统，评估学生的阅读理解能力。

衍生相关工作

NLI_datasets催生了许多经典的自然语言处理研究，如GLUE和SuperGLUE基准测试。这些基准测试通过整合多个NLI数据集，评估模型在多种语言理解任务中的表现。此外，基于这些数据集的研究还推动了BERT、GPT等预训练语言模型的发展，这些模型在NLI任务中表现出色，进一步推动了自然语言处理技术的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集