DiscoFuse

github2024-04-11 更新2024-05-31 收录

下载链接：

https://github.com/google-research-datasets/discofuse

下载链接

链接失效反馈

官方服务：

资源简介：

DiscoFuse是一个大规模的数据集，用于基于话语的句子融合研究。它通过规则基础的分割方法从网络上的体育文章和维基百科中创建。数据集分为两部分：体育文章和维基百科，每部分都提供了训练、开发和测试集，以及平衡版本。数据集详细记录了每个示例的原始文本、分割文本和话语类型等信息。

DiscoFuse is a large-scale dataset designed for research on discourse-based sentence fusion. It is created from sports articles and Wikipedia entries on the web using a rule-based segmentation method. The dataset is divided into two parts: sports articles and Wikipedia, each providing training, development, and test sets, along with balanced versions. The dataset meticulously records the original text, segmented text, and discourse type for each example.

创建时间：

2019-03-12

原始信息汇总

数据集概述

数据集名称

DiscoFuse

数据集描述

DiscoFuse是一个大规模数据集，用于基于话语的句子融合研究。该数据集通过规则基础的分割方法，从体育文章和维基百科两个来源创建。详细的数据集生成过程和评估见相关论文。

数据集组成部分

discofuse_v1_sports.tar.gz
- 来源：体育文章
- 示例数量：44,177,443
discofuse_v1_wikipedia.tar.gz
- 来源：维基百科
- 示例数量：16,642,323

数据集结构

每个部分包含6个数据子集：

train
train_balanced
dev
dev_balanced
test
test_balanced

数据格式

所有文件采用文本TSV格式。每个示例包含以下属性：

coherent_first_sentence
coherent_second_sentence
incoherent_first_sentence
incoherent_second_sentence
discourse_type
connective_string
has_coref_type_pronoun
has_coref_type_nominal

话语类型

PAIR_ANAPHORA
PAIR_CONN
PAIR_CONN_ANAPHORA
PAIR_NONE
SINGLE_APPOSITION
SINGLE_CATAPHORA
SINGLE_CONN_INNER
SINGLE_CONN_INNER_ANAPHORA
SINGLE_CONN_START
SINGLE_RELATIVE
SINGLE_S_COORD
SINGLE_S_COORD_ANAPHORA
SINGLE_VP_COORD

许可证

数据集遵循Creative Commons Attribution-ShareAlike 3.0许可证。

联系方式

morgeva [at] mail.tau.ac.il
szpektor [at] google.com

搜集汇总

数据集介绍

构建方式

DiscoFuse数据集通过应用基于规则的分割方法构建，从网络爬取的体育文章和维基百科中提取原始文本。该方法通过识别文本中的话语现象，将连续的句子或单个句子分割为两个不连贯的句子，并记录分割过程中涉及的连接词和指代关系。数据集的生成过程经过详细设计，确保了数据的高质量和多样性。

特点

DiscoFuse数据集具有大规模和多样性的特点，涵盖了体育文章和维基百科两大领域，提供了丰富的语料资源。数据集不仅包含原始文本的分割结果，还详细记录了分割过程中涉及的话语类型、连接词和指代关系，为研究句子融合和话语分析提供了宝贵的资源。此外，数据集提供了平衡版本，以应对原始数据分布的偏斜问题。

使用方法

使用DiscoFuse数据集时，用户可以下载包含体育文章和维基百科部分的压缩文件，每个部分均提供了训练、开发和测试集的随机分割。数据以TSV格式存储，每个样本包含原始文本的分割结果、话语类型、连接词和指代关系等信息。用户可以根据研究需求选择合适的子集进行实验，并参考论文中的详细描述进行数据分析和模型训练。

背景与挑战

背景概述

DiscoFuse数据集由Mor Geva、Eric Malmi、Idan Szpektor和Jonathan Berant于2019年创建，旨在解决基于话语的句子融合问题。该数据集通过规则基础的分割方法，从网络爬取的体育文章和维基百科中生成，包含了大量的话语现象实例。DiscoFuse的发布标志着在自然语言处理领域中，句子融合任务的规模和复杂性得到了显著提升，为相关研究提供了丰富的资源和基准。

当前挑战

DiscoFuse数据集在构建过程中面临了多个挑战。首先，数据集的生成依赖于复杂的规则基础方法，这要求对文本的结构和话语现象有深入的理解。其次，原始数据的分布高度偏斜，导致数据集的平衡性成为一个重要问题，需要额外的平衡处理。此外，数据集中包含多种话语类型，如何准确识别和分类这些类型也是一个技术挑战。最后，数据集的规模庞大，处理和存储这些数据对计算资源提出了较高的要求。

常用场景

经典使用场景

DiscoFuse数据集在自然语言处理领域中，主要用于基于语篇的句子融合任务。该数据集通过规则基础的分割方法，从体育文章和维基百科中提取了大量语料，为研究者提供了丰富的语篇现象实例。其经典使用场景包括但不限于：句子融合模型的训练与评估、语篇连接词的识别与恢复、以及语篇结构分析等。通过这些任务，研究者能够深入理解句子间的语篇关系，从而提升自然语言处理系统的性能。

衍生相关工作

基于DiscoFuse数据集，研究者们开展了一系列相关工作，推动了语篇分析和句子融合领域的研究进展。例如，有研究利用该数据集开发了新的句子融合模型，显著提升了模型的性能和鲁棒性。此外，还有工作探讨了如何将DiscoFuse中的语篇现象应用于其他自然语言处理任务，如文本生成和语篇理解。这些衍生工作不仅丰富了数据集的应用场景，还为语篇级自然语言处理提供了新的研究方向和方法论支持。

数据集最近研究