OA-STM-Corpus

github2024-04-29 更新2024-05-31 收录

下载链接：

https://github.com/elsevierlabs/OA-STM-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

OA-STM-Corpus是一个包含科学、技术和医学领域10个不同子领域的开放获取文章的语料库。该数据集包含110篇文章，每篇文章提供XML源文件、简单文本版本以及多种注释版本，如词性标签、句子和短语结构、词条、语法成分解析等。此外，还提供了手动创建的树库和自动生成的注释，旨在为自然语言处理、语言学和文本挖掘研究提供丰富的资源。

The OA-STM-Corpus is a corpus comprising open-access articles from 10 distinct subfields within the realms of science, technology, and medicine. This dataset encompasses 110 articles, each furnished with XML source files, plain text versions, and a variety of annotated versions, including part-of-speech tags, sentence and phrase structures, lemmas, syntactic constituent parsing, among others. Additionally, it offers manually curated treebanks and automatically generated annotations, designed to serve as a comprehensive resource for research in natural language processing, linguistics, and text mining.

创建时间：

2015-01-06

原始信息汇总

数据集概述

数据集名称

An Open Access Corpus of Scientific, Technical, and Medical Content

数据集目的

提供一个多领域的科学、技术和医学内容的数据集，以改善自然语言处理工具在STM领域的应用。

数据集内容

领域: 农业、天文学、生物学、化学、计算机科学、地球科学、工程学、材料科学、数学、医学。
文章数量: 每个领域11篇文章，总计110篇文章。
文章来源: 来自Elsevier的开放获取内容，具有Creative Commons CC-BY许可证。

数据集结构

SourceXML: 110个稍微修改过的XML源文件。
SourceText: 110个易于文本挖掘的可读文本提取。
CoreSC: 110个CoreSC话语模型注释。
Treebank: 10个手动创建的树库文件。
Stanford: 110个来自Stanford Core NLP的自动注释。
GENIA: 110个来自GENIA工具的自动注释。
Wikification: 10个来自Spotlight等工具的注释。

数据集特点

包含多种自动注释，如词性标签、句子断点、NP和VP块、词形、句法成分解析、维基概念识别和话语分析。
10篇文章被指定为默认测试集，用于手动审查和校正测试数据。

附加资源

提供了一个树库，以促进手动注释的创建。

许可证

数据集中的文章均具有Creative Commons CC-BY许可证，允许自由分发和使用，包括商业用途。

搜集汇总

数据集介绍

构建方式

OA-STM-Corpus 数据集由 Elsevier 构建，旨在为自然语言处理（NLP）研究提供一个多领域的科学、技术与医学（STM）内容语料库。该数据集从 Elsevier 的开放获取内容中精选了 110 篇文章，涵盖农业、天文学、生物学、化学、计算机科学、地球科学、工程学、材料科学、数学和医学等十个领域。每篇文章提供了多种格式的数据，包括原始的 XML 源文件、易于文本挖掘的简单文本版本，以及多种自动生成的注释版本，如词性标签、句子边界、名词短语和动词短语块、词元、句法成分解析、维基百科概念识别和话语分析等。此外，Elsevier 还为 10 篇文章创建了手动标注的树库，作为默认测试集，以支持更高质量的标注和测试。

特点

OA-STM-Corpus 数据集的主要特点在于其多领域性和丰富的注释信息。该数据集不仅涵盖了广泛的 STM 领域，还提供了多种自动生成的注释，使得研究人员能够比较不同算法的性能，并自动选择特征以创建更高阶的注释。此外，手动标注的树库为研究人员提供了高质量的测试数据，有助于提升 NLP 工具的准确性和可靠性。数据集的开放获取性质和 CC-BY 许可使得其可以自由分发和使用，进一步促进了 STM 领域的研究与应用。

使用方法

OA-STM-Corpus 数据集适用于多种自然语言处理任务，包括但不限于文本挖掘、词性标注、句法分析、话语分析和概念识别等。用户可以通过访问数据集的 GitHub 页面下载所需的文件，包括 XML 源文件、简单文本版本以及各种注释版本。对于需要高质量测试数据的研究者，数据集提供的默认测试集和手动标注的树库将是理想的选择。此外，数据集的开放性和多领域性使其成为跨学科研究的宝贵资源，研究人员可以根据具体需求选择合适的注释类型和领域进行深入分析。

背景与挑战

背景概述

在自然语言处理（NLP）领域，工具的性能在很大程度上依赖于训练和测试数据的内容类型。然而，科学、技术与医学（STM）领域的文本与新闻文本存在显著差异，现有的STM领域语料库往往局限于特定领域（如生物医学），且多为摘要而非全文，这限制了NLP工具在STM领域的应用效果。为解决这一问题，Elsevier公司于近期推出了OA-STM-Corpus数据集，该数据集包含了来自农业、天文学、生物学、化学、计算机科学、地球科学、工程学、材料科学、数学和医学等10个STM领域的110篇开放获取文章。这些文章均采用CC-BY许可，允许自由分发和使用。数据集不仅提供了原始XML文件和简化文本版本，还包含了多种自动生成的注释，如词性标签、句子分割、名词短语和动词短语块、词元、句法成分解析、维基百科概念识别和话语分析等。此外，Elsevier还为10篇文章创建了手动标注的树库，旨在为NLP、语言学和文本挖掘领域的研究人员提供宝贵的资源。

当前挑战

OA-STM-Corpus数据集的构建面临多重挑战。首先，STM领域的文本多样性极高，不同领域（如数学与生物医学）的文本结构和语言风格差异显著，这增加了统一标注的难度。其次，尽管数据集提供了多种自动生成的注释，但这些注释的准确性仍需通过手动校验来提升，尤其是在默认测试集中的10篇文章上。此外，如何在高密度注释的基础上，进一步实现更高阶的自动特征选择和注释生成，也是该数据集未来发展的重要挑战。最后，尽管数据集目前包含110篇文章，但其规模相对较小，如何扩展数据集以覆盖更多领域和文章，同时保持注释的一致性和质量，是该数据集面临的另一大挑战。

常用场景

经典使用场景

OA-STM-Corpus数据集的经典使用场景主要集中在自然语言处理（NLP）领域，尤其是在科学、技术与医学（STM）文本的处理与分析中。由于该数据集包含了来自多个STM领域的全文文章，并附带多种自动生成的注释，如词性标签、句法分析、语篇分析等，它为研究人员提供了一个丰富的资源库，用于开发和测试针对STM领域特化的NLP模型。这些模型可以用于文本分类、信息抽取、语义分析等任务，从而提升对复杂STM文本的理解和处理能力。

衍生相关工作

OA-STM-Corpus数据集的发布催生了一系列相关的经典工作。例如，基于该数据集的语篇分析研究，推动了CoreSC语篇模型的进一步发展，使得语篇层次的分析更加精确。此外，该数据集还为句法分析和词性标注算法的改进提供了宝贵的测试数据，促进了Stanford CoreNLP等工具在STM领域的优化。在文本挖掘方面，该数据集的多样化注释为特征选择和自动标注算法的开发提供了基础，推动了更高层次的语义分析和信息抽取技术的发展。

数据集最近研究