DRASTIC corpus

github2024-01-17 更新2024-05-31 收录

下载链接：

https://github.com/Universal-NLU/DRASTIC

下载链接

链接失效反馈

官方服务：

资源简介：

DRASTIC是一个语义注释数据集，包含自然长度的句子。该数据集提供两种版本的语义标注：一种包含句子内部指代消解，另一种不包含。数据集中的文本按子语料库划分，并以其相应的UD `sent_id`命名。

DRASTIC is a semantic annotation dataset comprising sentences of natural length. The dataset offers two versions of semantic annotations: one includes intra-sentence coreference resolution, while the other does not. The texts within the dataset are categorized by subcorpora and named according to their corresponding UD `sent_id`.

创建时间：

2023-05-26

原始信息汇总

The DRASTIC corpus 概述

数据集结构

数据目录

drs-annotation
- anaphora-resolution
  - 包含解决句子内部指代问题的文本。
  - 子目录：dvorak, marbles, nida, short-texts
- no-anaphora-resolution
  - 包含未解决句子内部指代问题的文本。
  - 子目录：dvorak, marbles, nida, short-texts
ud-sources
- 包含来自GUM corpus的原始文本。
- 子目录：dvorak, marbles, nida, short-texts

脚本目录

flatten_clause_notation.py
- 用于将PMB风格的DRS转换为简化格式的脚本。
flatten_clause_notation_in_batch.sh
- 用于批量运行上述脚本的shell脚本。

引用信息

若使用此数据集，请引用以下论文：

Haug, Dag T. T., Jamie Y. Findlay and Ahmet Yıldırım. 2023. The long and the short of it: DRASTIC, a semantically annotated dataset containing sentences of more natural length. In Proceedings of the 4th International Workshop on Designing Meaning Representations (DMR 2023), 89–98. Association for Computational Linguistics.

许可证

本数据集根据Creative Commons Attribution 4.0 International License授权。

搜集汇总

数据集介绍

构建方式

DRASTIC语料库的构建基于GUM语料库的UD源文本，通过语义标注的方式生成了两种版本的DRS（Discourse Representation Structure）注释：一种包含句内指代消解，另一种则不包含。标注文本按照子语料库进行分类，并以对应的UD句子ID命名。此外，语料库还提供了将PMB风格的DRS转换为简化格式的脚本，以便于进一步处理和分析。

特点

DRASTIC语料库的特点在于其包含了自然长度句子的语义标注，涵盖了多种文本类型和子语料库。其独特的双版本标注方式（含指代消解与不含指代消解）为研究者提供了丰富的语义分析资源。语料库的结构清晰，便于用户根据需求选择特定类型的文本进行深入研究。

使用方法

使用DRASTIC语料库时，用户可以通过提供的脚本将PMB风格的DRS转换为简化格式，以便于后续分析。语料库中的文本按照子语料库和句子ID进行分类，用户可以根据研究需求选择特定类型的文本进行语义分析。此外，用户需在引用该数据集时，按照指定的格式引用相关论文，以确保学术规范。

背景与挑战

背景概述

DRASTIC语料库由Dag T. T. Haug、Jamie Y. Findlay和Ahmet Yıldırım于2023年创建，旨在为自然语言处理领域提供语义标注的文本数据。该数据集基于GUM语料库，包含了经过DRS（Discourse Representation Structure）标注的文本，涵盖了句子内部指代消解与未消解两种版本。DRASTIC语料库的独特之处在于其包含了更接近自然语言长度的句子，为语义解析和指代消解等任务提供了更为丰富的训练数据。该数据集在2023年国际语义表示设计研讨会（DMR 2023）上发布，对语义表示和自然语言理解领域的研究具有重要推动作用。

当前挑战

DRASTIC语料库在构建和应用过程中面临多重挑战。首先，语义标注的复杂性要求研究人员对文本进行精细的DRS标注，尤其是在处理长句子和复杂指代关系时，标注的一致性和准确性难以保证。其次，指代消解任务的引入增加了数据处理的难度，如何在不同语境下准确识别和解析指代关系成为关键问题。此外，数据集的构建依赖于GUM语料库，其原始数据的质量和多样性直接影响了DRASTIC语料库的适用性和泛化能力。这些挑战不仅体现在数据构建过程中，也对后续的语义解析和自然语言理解任务提出了更高的要求。

常用场景

经典使用场景

DRASTIC corpus在自然语言处理领域中被广泛用于语义表示研究，特别是在句子级语义标注和指代消解任务中。该数据集提供了丰富的语义标注信息，包括带有指代消解和不带指代消解的版本，为研究人员提供了多样化的实验条件。通过使用该数据集，研究者能够深入探讨句子内部语义结构的复杂性，尤其是在处理自然长度句子时的挑战。

解决学术问题

DRASTIC corpus解决了自然语言处理中语义表示和指代消解的关键问题。传统语义标注数据集往往局限于短句或简单结构，而DRASTIC corpus则包含了更接近自然语言长度的句子，填补了这一研究空白。该数据集为语义解析、指代消解和语义角色标注等任务提供了高质量的标注数据，推动了这些领域的技术进步。

衍生相关工作

DRASTIC corpus的发布催生了一系列相关研究，特别是在语义表示和指代消解领域。基于该数据集，研究者提出了多种改进的语义解析模型和指代消解算法。例如，一些工作利用该数据集中的长句子标注信息，开发了更高效的语义解析框架。此外，该数据集还被用于评估不同指代消解方法的性能，推动了这些技术的进一步发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集