DEFT corpus

github2019-10-14 更新2024-05-31 收录

下载链接：

https://github.com/michael-wzhu/deft_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

DEFT corpus是一个大规模的专业标注文本定义提取数据集，用于复杂的自由文本定义提取。该数据集与SemEval 2020任务6相关，提供训练和开发数据，测试数据将在SemEval评估期结束后提供。数据集来源于相应的教科书，并采用CoNLL 2003格式发布。

The DEFT corpus is a large-scale, professionally annotated dataset for complex free-text definition extraction. This dataset is associated with SemEval 2020 Task 6 and provides training and development data, with test data to be released after the SemEval evaluation period. The dataset is sourced from relevant textbooks and is published in the CoNLL 2003 format.

创建时间：

2019-10-14

原始信息汇总

数据集概述

数据集名称

DEFT corpus

数据集描述

DEFT corpus是专为复杂定义提取任务而设计的大型专家标注语料库。该数据集与SemEval 2020 Task 6（DeftEval）相关联，训练和开发数据已发布，测试数据将在2020年2月2日SemEval评估期结束后提供。数据来源于https://cnx.org上的相应教科书。

数据集版本更新

最新版本更新于2019年9月4日。

数据格式

数据采用CoNLL 2003类似的格式，具体结构如下：

TOKEN TXT_SOURCE_FILE START_CHAR END_CHAR TAG TAG_ID ROOT_ID RELATION

许可信息

数据集遵循CC BY-NC-SA 4.0许可协议，商业使用需联系作者。

引用信息

如在出版物中使用此数据集，请引用以下文献：

@inproceedings{spala-etal-2019-deft, title = "{DEFT}: A corpus for definition extraction in free- and semi-structured text", author = "Spala, Sasha and Miller, Nicholas A. and Yang, Yiming and Dernoncourt, Franck and Dockhorn, Carl", booktitle = "Proceedings of the 13th Linguistic Annotation Workshop", month = aug, year = "2019", address = "Florence, Italy", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/W19-4015", pages = "124--131", abstract = "Definition extraction has been a popular topic in NLP research for well more than a decade, but has been historically limited to well-defined, structured, and narrow conditions. In reality, natural language is messy, and messy data requires both complex solutions and data that reflects that reality. In this paper, we present a robust English corpus and annotation schema that allows us to explore the less straightforward examples of term-definition structures in free and semi-structured text.", }

搜集汇总

数据集介绍

构建方式

DEFT语料库的构建，依托于对自由文本中复杂定义提取的深度标注，旨在为自然语言处理领域提供一组规模庞大、经过专家标注的数据资源。该数据集的构建遵循了严格的标注规范，其文本来源为相应的教科书，并通过了Character indices的转换，采用了BIO标签格式，以符合CoNLL 2003-like的数据格式标准。数据集的构建同时伴随着SemEval 2020 Task 6（DeftEval）的进程，确保了其质量和实用性。

特点

该数据集的特点在于其规模宏大、标注精确，为定义提取任务提供了丰富的训练和开发数据。它专门针对自由文本中的复杂定义提取问题，包含了教科书中的句子及其注释，并采用了Creative Commons BY-NC-SA 4.0许可证，便于学术界的共享与使用。此外，数据集的更新及时，最新版本于2019年9月4日更新，保证了其时效性和前沿性。

使用方法

背景与挑战

背景概述

DEFT corpus作为自然语言处理领域中定义提取任务的重要资源，由Sasha Spala、Nicholas A. Miller等研究人员创建，并于2019年9月4日更新至最新版本。该数据集旨在为复杂定义提取任务提供专家级注释的最大语料库，与SemEval 2020 Task 6（DeftEval）相关联，对自由文本和半结构化文本中的术语定义结构进行了深入探索，对定义提取研究的领域产生了显著影响。其数据来源于相应的教科书，并以CC BY-NC-SA 4.0许可证提供使用。

当前挑战

该数据集面临的挑战主要在于定义提取任务的复杂性和多样性，包括在自由文本中准确识别术语和定义之间的关联，以及在半结构化文本中处理不规则的术语定义结构。构建过程中的挑战涉及创建一个能够适应不同文本格式和语言风格的注释框架，并保持注释的一致性和准确性。此外，数据集的构建还需考虑版权问题，确保所有文本和注释均符合合法使用标准。

常用场景

经典使用场景

在自然语言处理领域，定义提取是信息检索与知识发现的关键任务之一。DEFT语料库作为目前最大的自由文本复杂定义提取专业注释语料库，其经典使用场景主要集中于学术研究和自然语言处理系统训练。该数据集为研究人员提供了丰富的训练和开发数据，以便构建和优化定义提取模型，进而从非结构化文本中提取出准确的概念定义信息。

解决学术问题

DEFT语料库解决了学术研究中如何处理自由文本中定义提取的问题，特别是在结构化和半结构化文本中识别复杂的术语定义结构。该数据集的构建为学术研究提供了实证基础，有助于推动定义提取技术的发展，并提升自然语言理解的精确度。

衍生相关工作

基于DEFT语料库，研究者们已衍生出多项相关工作，包括定义提取模型的构建、语料库的扩展与优化、以及相关任务的评测方法研究等。这些工作进一步推动了自然语言处理领域的发展，并为定义提取任务提供了多样化的解决方案和理论依据。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集