NLI_datasets
收藏github2022-12-14 更新2024-05-31 收录
下载链接:
https://github.com/felipessalvatore/NLI_datasets
下载链接
链接失效反馈官方服务:
资源简介:
自然语言推理数据集,包含多个子数据集,如FRACAS、RTE、COPA和WNLI,用于自然语言理解和推理任务。
This natural language inference dataset contains multiple sub-datasets including FRACAS, RTE, COPA and WNLI, and is designed for natural language understanding and reasoning tasks.
创建时间:
2019-07-03
原始信息汇总
数据集概述
FRACAS
- 类型: NLI 数据集
- 年份: 1996
- 来源: 原始数据来自 https://nlp.stanford.edu/~wcmac/downloads/fracas.xml,经过处理,将 P1, ..Pn 作为 premise,H 作为 hypothesis,label 定义为 {yes: "entailment", no: contradiction, undef: "neutral", unknown: "neutral"}。数据集随机分为 80/20 的训练/验证集。
RTE
- 类型: RTE 数据集
- 年份: 2006, 2007, 2009 (由 RTE1, RTE2, RTE3, RTE5 创建)
- 来源: 原始数据集信息未详细说明,但提到了多个年份的版本。
COPA
- 类型: RTE 数据集
- 年份: 21 March 2011 (从 http://people.ict.usc.edu/~gordon/copa.html 构建)
- 修改: 对原始数据集进行了标签转换,将 "neutral" 改为 "not_entailment","entailment" 保持不变。
WNLI
- 类型: RTE 数据集
- 年份: January 2012 (由 The Winograd Schema Challenge 创建)
- 来源: 原始数据集信息未详细说明。
SICK
- 类型: NLI 数据集
- 年份: 2014
- 来源: 原始数据集未能找到,使用了两个 GitHub 仓库获取了 10K 示例。
SNLI
- 类型: NLI 数据集
- 年份: 2015
- 来源: 原始数据集信息未详细说明。
Add-one RTE
- 类型: RTE 数据集
- 年份: 15 Aug 2016
- 来源: 原始数据集信息未详细说明。
QNLI
- 类型: RTE 数据集
- 年份: 11 October 2016 (由 The Standford Question Answering Dataset 创建)
- 来源: 原始数据集信息未详细说明。
MNLI
- 类型: NLI 数据集
- 年份: 18 Apr 2017
- 来源: 原始数据集信息未详细说明。
JOCI
- 类型: NLI 数据集
- 年份: 2 Jun 2017
- 修改: 对数据集进行了标签定义,如 0-1: contradiction, 2-4: neutral, 5: entailment。
- 来源: 原始数据集未能找到,仅在 http://decomp.io/data/ 找到部分数据。
IIE
- 类型: RTE 数据集
- 年份: 27 NOV 2017
- 来源: 数据收集自 http://decomp.io/projects/diverse-natural-language-inference/。
MPE
- 类型: NLI 数据集
- 年份: 27 NOV 2017
- 来源: 原始数据集信息未详细说明。
Scitail
- 类型: RTE 数据集
- 年份: 27 Apr 2018
- 修改: 对标签进行了更改,将 "neutral" 改为 "not_entailment","entailment" 保持不变。
- 来源: 原始数据集信息未详细说明。
Commitment Bank
- 类型: NLI 数据集
- 年份: 2019 (从 https://github.com/mcdm/CommitmentBank 构建)
- 来源: 原始数据集信息未详细说明。
搜集汇总
数据集介绍

构建方式
NLI_datasets的构建基于多个自然语言推理(NLI)和文本蕴含(RTE)任务的数据集,涵盖了从1996年至2019年的多个经典数据集。每个数据集均通过提取前提(premise)和假设(hypothesis)对,并标注其蕴含关系(entailment、contradiction、neutral)来构建。部分数据集如FRACAS和COPA经过格式转换,将原始数据重新组织为统一的CSV格式,便于后续处理。数据集的划分通常采用80/20的比例进行训练集和开发集的随机分割,确保模型的泛化能力。
特点
NLI_datasets的特点在于其多样性和广泛性,涵盖了多个领域的自然语言推理任务。数据集不仅包括经典的NLI任务(如SNLI、MNLI),还包含从科学问答(SciTail)到常识推理(JOCI)等特定领域的任务。每个数据集均经过精心标注,标签清晰且逻辑严谨,能够有效支持模型的训练与评估。此外,部分数据集如COPA和Scitail经过格式和标签的调整,使其更符合现代NLI任务的需求。
使用方法
NLI_datasets的使用方法较为灵活,适用于多种自然语言理解任务。用户可以通过加载CSV格式的数据文件,直接获取前提、假设及其对应的标签。数据集可用于训练和评估自然语言推理模型,如BERT、RoBERTa等预训练模型。开发者可以根据任务需求选择特定的数据集进行微调,或通过组合多个数据集进行多任务学习。此外,数据集的分割方式(如80/20的训练/开发集)也为模型的验证和调优提供了便利。
背景与挑战
背景概述
NLI_datasets 是一个专注于自然语言推理(Natural Language Inference, NLI)任务的数据集集合,涵盖了多个子数据集,如FRACAS、RTE、COPA、WNLI、SICK、SNLI等。这些数据集最早可追溯至1996年,由多个研究团队和机构共同创建,旨在解决文本蕴含、矛盾和中立关系的识别问题。NLI任务的核心在于判断一个前提(premise)是否蕴含、矛盾或与假设(hypothesis)无关。这些数据集在自然语言处理领域具有重要影响力,推动了诸如BERT、GPT等预训练语言模型的发展,并为文本理解、问答系统等应用提供了基础支持。
当前挑战
NLI_datasets 面临的挑战主要体现在两个方面。首先,NLI任务本身具有较高的复杂性,要求模型不仅理解句子的表面语义,还需捕捉深层次的逻辑关系和常识推理。例如,某些假设可能依赖于隐含的背景知识,这对模型的推理能力提出了更高要求。其次,数据集的构建过程中也面临诸多挑战,如标注一致性、数据来源的多样性以及跨领域适应性等。部分数据集(如SICK、JOCI)由于原始数据难以获取,研究者不得不依赖多个来源进行整合,这可能导致数据质量的不一致性。此外,不同数据集之间的标签定义和任务设置存在差异,增加了模型泛化和跨数据集评估的难度。
常用场景
经典使用场景
NLI_datasets广泛应用于自然语言推理(NLI)任务,特别是在文本蕴含、矛盾和中立关系的识别中。这些数据集通过提供前提和假设的配对,帮助模型学习如何从给定的前提中推断出假设的正确性。经典的使用场景包括在自然语言理解(NLU)任务中,评估模型是否能够准确判断两个句子之间的逻辑关系。
实际应用
在实际应用中,NLI_datasets被广泛用于构建智能问答系统、自动摘要生成和对话系统。例如,在智能客服中,系统可以通过分析用户问题与知识库中的前提,判断用户的需求是否被满足。此外,这些数据集还被用于教育领域,帮助开发自动评分系统,评估学生的阅读理解能力。
衍生相关工作
NLI_datasets催生了许多经典的自然语言处理研究,如GLUE和SuperGLUE基准测试。这些基准测试通过整合多个NLI数据集,评估模型在多种语言理解任务中的表现。此外,基于这些数据集的研究还推动了BERT、GPT等预训练语言模型的发展,这些模型在NLI任务中表现出色,进一步推动了自然语言处理技术的进步。
以上内容由遇见数据集搜集并总结生成



