Textual Entailment: New Protocols

github2021-07-22 更新2024-05-31 收录

下载链接：

https://github.com/google-research-datasets/Textual-Entailment-New-Protocols

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集包含五个子数据集：`base`, `paragraph`, `edit_premise`, `edit_other` 和 `contrast`，用于文本蕴涵预训练的新协议研究。每个子数据集都分为训练集和验证集，并提供三种格式以便于加载和使用。数据来源于Wikipedia，遵循Creative Commons Attribution-ShareAlike 3.0 Unported License和GNU Free Documentation License。

This dataset comprises five subsets: `base`, `paragraph`, `edit_premise`, `edit_other`, and `contrast`, intended for research on novel protocols for textual entailment pre-training. Each subset is split into training and validation sets, with three formats provided to simplify loading and utilization. The data is sourced from Wikipedia, and is licensed under the Creative Commons Attribution-ShareAlike 3.0 Unported License as well as the GNU Free Documentation License.

创建时间：

2020-04-29

原始信息汇总

文本蕴含数据集: 新协议

数据集描述

该数据集是为了配合并记录以下论文而发布的：

论文标题: Collecting Entailment Data for Pretraining: New Protocols and Negative Results
作者: Samuel R. Bowman, Jennimaria Palomaki, Livio Baldini Soares, Emily Pitler
发表年份: 2020

数据集内容

data/ 目录包含论文中描述的五个数据集：base, paragraph, edit_premise, edit_other 和 contrast。

每个数据集分为：

训练集: 包含 8,500 个样本
验证集: 包含剩余收集的样本（具体大小因数据集而异）

每个数据集以三种格式分发，以便能够使用任何能够加载 MNLI 的代码加载数据集：

.tsv 文件: 使用与 GLUE Benchmark 的整数索引版本的 MNLI 匹配的列名和列顺序
.txt 文件: 使用与原始 MNLI 1.0 数据发布的 .txt 版本匹配的列名和列顺序
.jsonl 文件: 使用与原始 MNLI 1.0 数据发布的 .jsonl 版本匹配的字段名

数据集特点

.jsonl 文件 包含两个原始 MNLI 数据发布中未找到的字段：
- sentence1_source: 对应 sentence1 提取的 Wikipedia 页面 ID、页面标题和 URL
- sentence2_author: 编写对应 sentence2 的注释者的匿名标识符

数据来源

所有输入数据来自 Wikipedia，根据 Creative Commons Attribution-ShareAlike 3.0 Unported License (CC BY-SA) 和 GNU Free Documentation License (GFDL) 授权供公众使用。

引用

bibtex @inproceedings{Bowman2020EntailmentNewProtocols, title={Collecting Entailment Data for Pretraining: New Protocols and Negative Results}, author={Samuel R. Bowman and Jennimaria Palomaki and Livio Baldini Soares and Emily Pitler}, year={2020}, booktitle={Proceedings of EMNLP} }

搜集汇总

数据集介绍

构建方式

该数据集的构建基于文本蕴含任务的新协议，旨在探索预训练数据的收集方法及其对模型性能的影响。数据集由五个子集组成，分别为`base`、`paragraph`、`edit_premise`、`edit_other`和`contrast`，每个子集包含8,500个训练样本和一定数量的验证样本。数据来源于2019年6月20日的英文维基百科，通过人工标注的方式生成句子对，并记录了句子来源及标注者信息。数据以三种格式发布，包括与GLUE Benchmark兼容的`.tsv`文件、与MNLI 1.0原始数据格式一致的`.txt`文件，以及包含额外字段的`.jsonl`文件。

使用方法

该数据集的使用方法灵活多样，支持通过多种格式加载数据。用户可以使用与MNLI兼容的代码直接加载`.tsv`或`.txt`文件，或通过`.jsonl`文件获取包含额外字段的完整信息。数据集适用于文本蕴含任务的模型训练与评估，尤其适合研究预训练数据收集策略对模型性能的影响。实验复现指南可在相关GitHub页面获取，用户可根据论文中的实验设置进行模型训练和结果验证。

背景与挑战

背景概述

Textual Entailment: New Protocols 数据集由Samuel R. Bowman、Jennimaria Palomaki、Livio Baldini Soares和Emily Pitler等研究人员于2020年发布，旨在为自然语言处理领域的文本蕴含任务提供新的数据收集协议。该数据集包含五个子集，分别命名为`base`、`paragraph`、`edit_premise`、`edit_other`和`contrast`，每个子集包含8,500个训练样本和一定数量的验证样本。数据来源于2019年6月的英文维基百科，并通过Creative Commons Attribution-ShareAlike 3.0 Unported License (CC BY-SA)和GNU Free Documentation License (GFDL)授权使用。该数据集的研究成果发表在EMNLP 2020会议上，为文本蕴含任务的预训练模型提供了新的数据支持。

当前挑战

Textual Entailment: New Protocols 数据集在构建过程中面临了多方面的挑战。首先，文本蕴含任务本身要求模型能够理解两个句子之间的逻辑关系，这对数据的质量和多样性提出了较高要求。其次，数据集的构建依赖于人工标注，如何确保标注的一致性和准确性是一个关键问题。此外，数据来源于维基百科，虽然其内容丰富，但如何从中提取出适合文本蕴含任务的句子对，并避免引入噪声数据，也是一个技术难点。最后，数据集的格式设计需要与现有的自然语言推理基准（如MNLI）兼容，以确保其能够被广泛使用和评估。

常用场景

经典使用场景

在自然语言处理领域，Textual Entailment: New Protocols数据集主要用于文本蕴含任务的训练和评估。该数据集通过提供多种格式的数据文件，如.tsv、.txt和.jsonl，使得研究者能够轻松地将其集成到现有的自然语言推理（NLI）模型中。特别是在模型预训练和微调阶段，该数据集为研究者提供了丰富的文本对，帮助模型更好地理解文本之间的逻辑关系。

解决学术问题

该数据集解决了文本蕴含任务中数据稀缺和多样性不足的问题。通过引入新的数据收集协议，如`base`、`paragraph`、`edit_premise`、`edit_other`和`contrast`，研究者能够获得更具挑战性和多样性的文本对。这不仅提升了模型在复杂语境下的推理能力，还为文本蕴含任务的进一步研究提供了坚实的基础。

实际应用

在实际应用中，Textual Entailment: New Protocols数据集被广泛用于构建和优化智能问答系统、信息检索系统和自动摘要生成系统。通过使用该数据集，这些系统能够更准确地理解用户查询与文档内容之间的逻辑关系，从而提供更加精准和相关的回答或摘要。此外，该数据集还被用于教育领域，帮助学生和教师更好地理解文本推理的逻辑结构。

数据集最近研究