DEFT corpus

github2024-03-23 更新2024-05-31 收录

下载链接：

https://github.com/adobe-research/deft_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

DEFT语料库是用于复杂定义提取的最大专家注释语料库，与SemEval 2020任务6（DeftEval）相关联，提供训练和开发数据，测试数据将在SemEval评估期结束后提供。数据来源于相应的教科书，并使用CoNLL 2003格式发布。

The DEFT corpus stands as the largest expert-annotated corpus for complex definition extraction, associated with SemEval 2020 Task 6 (DeftEval). It provides training and development data, with test data to be made available following the conclusion of the SemEval evaluation period. The data is sourced from relevant textbooks and is published in the CoNLL 2003 format.

创建时间：

2019-07-31

原始信息汇总

数据集概述

数据集名称

DEFT corpus

数据集描述

DEFT corpus 是针对复杂定义提取任务的最大专家标注语料库。此数据集与 SemEval 2020 Task 6 (DeftEval) 相关联，目前提供训练和开发数据，测试数据将在2020年2月2日SemEval评估期结束后发布。数据来源于 https://cnx.org 的教科书文本。

数据集版本更新

最新版本更新于2020年1月16日。

数据格式

数据采用CoNLL 2003格式，具体结构如下：

TOKEN TXT_SOURCE_FILE START_CHAR END_CHAR TAG TAG_ID ROOT_ID RELATION

许可证信息

数据集根据 CC BY-NC-SA 4.0 许可发布，商业使用需联系作者。

引用信息

若在出版物中使用此数据集，请引用以下文献：

@inproceedings{spala-etal-2019-deft, title = "{DEFT}: A corpus for definition extraction in free- and semi-structured text", author = "Spala, Sasha and Miller, Nicholas A. and Yang, Yiming and Dernoncourt, Franck and Dockhorn, Carl", booktitle = "Proceedings of the 13th Linguistic Annotation Workshop", month = aug, year = "2019", address = "Florence, Italy", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/W19-4015", pages = "124--131", abstract = "Definition extraction has been a popular topic in NLP research for well more than a decade, but has been historically limited to well-defined, structured, and narrow conditions. In reality, natural language is messy, and messy data requires both complex solutions and data that reflects that reality. In this paper, we present a robust English corpus and annotation schema that allows us to explore the less straightforward examples of term-definition structures in free and semi-structured text.", }

搜集汇总

数据集介绍

构建方式

DEFT语料库的构建过程依托于SemEval 2020 Task 6（DeftEval）任务，旨在从自由文本中提取复杂定义。该语料库的文本来源于公开的教材资源，通过专家团队进行精细标注，确保了数据的高质量。标注格式采用了类似于CoNLL 2003的结构，每个词条均包含字符索引、标签及关系信息，标签遵循BIO格式，并基于brat standoff格式生成。语料库的最新版本于2020年1月16日更新，涵盖了训练集、开发集及测试集。

使用方法

DEFT语料库的使用方法较为直观，用户可通过GitHub页面获取训练集和开发集，测试集则在SemEval评估期结束后开放。数据格式采用CoNLL 2003风格，每个词条包含字符索引、标签及关系信息，便于直接用于模型训练和评估。用户可通过引用相关论文的方式在学术研究中使用该语料库，同时需遵守CC BY-NC-SA 4.0许可协议。对于商业用途，建议联系作者获取授权。语料库的丰富标注信息为定义提取任务提供了强有力的支持，适用于多种自然语言处理研究场景。

背景与挑战

背景概述

DEFT语料库是专为复杂定义提取任务而构建的专家标注数据集，首次发布于2019年，由Sasha Spala等研究人员在第十三届语言学标注研讨会（LAW-XIII）上提出。该语料库旨在解决自然语言处理（NLP）领域中定义提取的复杂性问题，特别是在自由文本和半结构化文本中识别术语及其定义的任务。DEFT语料库的构建基于真实世界的教科书文本，其标注框架和数据结构为研究提供了丰富的资源。该数据集在SemEval 2020 Task 6（DeftEval）中作为基准数据集使用，推动了定义提取领域的研究进展，并为相关算法和模型的开发提供了重要支持。

当前挑战

DEFT语料库在构建和应用过程中面临多重挑战。首先，定义提取任务本身具有高度复杂性，尤其是在自由文本中，术语和定义的边界往往模糊不清，且语言表达形式多样，这对标注的准确性和一致性提出了极高要求。其次，语料库的构建依赖于大量人工标注，标注过程不仅耗时，还需确保标注者具备专业知识以应对复杂的语言现象。此外，语料库的规模和质量直接影响模型的性能，如何在有限的资源下平衡标注深度与数据覆盖范围，是构建过程中需要解决的关键问题。最后，DEFT语料库的应用场景广泛，但如何将其有效迁移至不同领域或语言环境，仍需进一步探索和优化。

常用场景

经典使用场景

DEFT corpus作为目前最大的专家标注语料库，广泛应用于复杂定义抽取任务中。其经典使用场景包括自然语言处理（NLP）领域中的定义抽取研究，尤其是在自由文本和半结构化文本中识别术语及其定义。该数据集为研究人员提供了一个标准化的基准，用于开发和评估定义抽取算法，特别是在处理非结构化文本时，能够有效提升模型的泛化能力和准确性。

解决学术问题

DEFT corpus解决了定义抽取领域长期存在的挑战，即如何在复杂、非结构化的文本中准确识别术语及其定义。传统方法通常局限于结构化或特定领域的文本，而DEFT corpus通过提供多样化的文本样本和详细的标注，使得研究人员能够开发出更具鲁棒性的模型。这一数据集的出现，推动了定义抽取技术在实际应用中的进一步发展，并为相关研究提供了宝贵的资源。

实际应用

DEFT corpus在实际应用中具有广泛的价值，特别是在教育、知识管理和信息检索领域。例如，教育机构可以利用该数据集开发自动化工具，帮助学生快速理解教科书中的术语定义；知识管理系统可以通过定义抽取技术，自动构建和维护知识库；信息检索系统则能够通过识别文本中的定义，提升搜索结果的准确性和相关性。这些应用场景充分展示了DEFT corpus在实际问题解决中的潜力。

数据集最近研究