stanfordnlp/snli

Hugging Face2024-03-06 更新2024-04-19 收录

下载链接：

https://hf-mirror.com/datasets/stanfordnlp/snli

下载链接

链接失效反馈

资源简介：

SNLI语料库（版本1.0）是一个包含570k个人工撰写的英文句子对的集合，这些句子对经过人工标注，标注为蕴含、矛盾或中立，支持自然语言推理（NLI）任务，也称为识别文本蕴含（RTE）。数据集来源于Flickr 30k和VisualGenome语料库，通过众包平台Amazon Mechanical Turk进行标注。

提供机构：

stanfordnlp

原始信息汇总

数据集概述

名称: Stanford Natural Language Inference (SNLI)

语言: 英语 (en)

许可证: Creative Commons Attribution-ShareAlike 4.0 International License (cc-by-sa-4.0)

多语言性: 单语种

大小: 100K<n<1M

任务类别: 文本分类

任务ID: 自然语言推理, 多输入文本分类

数据集信息:

配置名称: plain_text
特征:
- premise: 字符串类型
- hypothesis: 字符串类型
- label: 分类标签，包括0: entailment, 1: neutral, 2: contradiction
数据分割:
- train: 550,152个实例
- validation: 10,000个实例
- test: 10,000个实例

数据集结构

数据实例: 每个实例包含一个前提、一个假设和一个标签。
数据字段:
- premise: 用于判断假设真实性的字符串。
- hypothesis: 可能为真、假或与前提比较时真值条件未知的字符串。
- label: 整数，表示假设与前提的关系，0表示假设蕴含前提，1表示两者既不蕴含也不矛盾，2表示假设与前提矛盾。

数据集创建

来源数据: 数据集扩展自Flickr-30k和Visual Genome。
注释: 由Amazon Mechanical Turk的众包工作者创建。
个人和敏感信息: 数据集可能包含原始Flickr照片中人物的描述，但不包含作者或众包工作者的个人身份信息。

使用数据集的考虑

社会影响: 数据集用于评估文本表示系统，特别是那些通过表示学习方法诱导的系统。
偏见讨论: 数据集中的语言反映了从Flickr收集的照片内容，可能包含性别等身份类别的刻板印象。
其他已知限制: 数据集存在注释工件，如Poliak et al. (2018)所示，可以在不使用前提的情况下正确预测假设标签的69%。

搜集汇总

数据集介绍

构建方式

在自然语言推理领域，SNLI数据集的构建体现了严谨的学术范式。其核心方法是通过众包平台Amazon Mechanical Turk，以来自Flickr 30k和Visual Genome数据集的图像描述作为前提句，邀请标注者围绕同一前提创作蕴含、中立和矛盾三种逻辑关系的假设句。为确保标注质量，研究团队对部分数据进行了多轮验证标注，通过计算Fleiss κ系数评估标注者间一致性，并依据多数共识确定黄金标签，最终构建了一个规模庞大、标注精细的平衡分类语料库。

使用方法

在自然语言处理研究中，SNLI数据集主要服务于自然语言推理任务的模型训练与评估。研究者可通过Hugging Face Datasets库直接加载数据集，依据数据字段中的前提、假设和标签构建输入输出对。使用前需注意过滤标签为-1的无效样本。典型的应用流程包括：利用训练集进行模型参数优化，通过验证集进行超参数调优和早期停止，最终在测试集上报告模型性能指标。该数据集已成为衡量模型语义理解能力的标准测试平台，支撑了从传统特征工程到预训练语言模型等一系列方法的创新与发展。

背景与挑战

背景概述

斯坦福自然语言推理（SNLI）语料库由斯坦福大学自然语言处理小组于2015年发布，旨在为自然语言推理任务提供大规模标注数据。该数据集由Samuel R. Bowman、Gabor Angeli、Christopher Potts和Christopher D. Manning等学者主导构建，核心研究问题聚焦于识别文本对之间的蕴含、矛盾或中立关系。通过众包方式收集了超过57万条英文句子对，SNLI推动了深度学习模型在语义理解领域的发展，成为评估文本表示系统的重要基准，对计算语言学和人工智能研究产生了深远影响。

当前挑战

SNLI数据集致力于解决自然语言推理任务的挑战，即准确判断前提与假设之间的逻辑关系，这要求模型具备深层次的语义理解和推理能力。在构建过程中，数据收集依赖于众包平台，面临标注一致性与质量控制难题，例如部分标注存在歧义或缺乏共识。此外，数据源主要来自Flickr图片描述，可能导致语言风格单一和领域偏差，后续研究还揭示了假设中存在的标注伪影与社会偏见，这些因素共同构成了数据集在应用与泛化方面的主要挑战。

常用场景

经典使用场景

在自然语言处理领域，斯坦福自然语言推理数据集（SNLI）作为自然语言推理任务的基准，为模型训练与评估提供了丰富资源。该数据集通过前提与假设句对的标注，构建了蕴含、中立与矛盾的三元分类框架，成为检验语言模型语义理解能力的经典场景。研究者利用其大规模标注样本，能够系统性地探索句子间逻辑关系的自动识别机制，推动语义表示学习的发展。

解决学术问题

SNLI数据集有效应对了自然语言推理中语义关系建模的挑战，为识别文本蕴含任务提供了标准化评估平台。它解决了传统小规模数据难以支撑深度神经网络训练的问题，通过众包构建的57万句对，显著提升了模型对复杂语义交互的捕捉能力。该数据集促进了语义表示、推理机制以及跨句语境理解等核心学术问题的探索，成为推动自然语言理解领域进展的关键基础设施。

实际应用

在实际应用层面，SNLI数据集支撑的推理技术已渗透至智能问答、信息检索与文本摘要等场景。基于该数据集训练的模型能够精准判断用户查询与文档内容的逻辑一致性，增强搜索引擎的语义匹配精度。在自动客服系统中，此类技术可辨识用户表述与知识库条目的蕴含关系，提升应答准确性，为人工智能对话系统赋予更深刻的语义理解能力。

数据集最近研究