OA-STM-Corpus

github2019-12-27 更新2024-05-31 收录

下载链接：

https://github.com/softuncle/OA-STM-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含科学、技术和医学领域开放获取文章的语料库，涵盖农业、天文学、生物学、化学、计算机科学、地球科学、工程、材料科学、数学和医学10个领域。数据集提供了每篇文章的XML源文件、简单文本版本以及多种自动和手动标注的版本，旨在为NLP、语言学和文本挖掘研究提供资源。

This is a corpus comprising open-access articles in the fields of science, technology, and medicine, spanning ten disciplines including agriculture, astronomy, biology, chemistry, computer science, earth sciences, engineering, materials science, mathematics, and medicine. The dataset provides XML source files for each article, a plain text version, and multiple versions with both automated and manual annotations, designed to serve as a resource for NLP, linguistics, and text mining research.

创建时间：

2019-12-27

原始信息汇总

数据集概述

数据集名称

An Open Access Corpus of Scientific, Technical, and Medical Content

数据集目的

提供一个包含多个科学、技术和医学领域的开放访问语料库，以支持自然语言处理（NLP）、语言学和文本挖掘的研究、开发和应用。

数据集内容

领域范围：农业、天文学、生物学、化学、计算机科学、地球科学、工程、材料科学、数学、医学。
文章数量：每个领域11篇文章，共110篇文章。
文章来源：Elsevier的开放访问内容，具有Creative Commons CC-BY许可证。

数据集结构

SourceXML：110个稍微修改过的XML源文件。
SourceText：110个可读文本提取，便于文本挖掘。
CoreSC：110个CoreSC话语模型注释。
Treebank：10个手动创建的树库文件。
Stanford：110个来自Stanford Core NLP的自动注释。
GENIA：110个来自GENIA工具的自动注释。
Wikification：10个来自Spotlight和类似工具的注释。

数据集特色

提供多种类型的注释，包括词性标签、句子断点、NP和VP块、词形、句法成分解析、维基百科概念识别和话语分析。
包含一个默认测试集，由10篇文章组成，用于手动审查和纠正测试数据。

数据集使用

数据集旨在用于NLP、语言学和文本挖掘的研究和开发，特别是针对科学、技术和医学领域的文本处理。
鼓励用户对数据集进行注释，以比较不同注释算法的性能，并自动选择特征以创建更高级别的注释。

搜集汇总

数据集介绍

构建方式

OA-STM-Corpus 数据集的构建，旨在解决STM（科学、技术与医学）领域中自然语言处理工具训练与测试内容的不匹配问题。该数据集由Elsevier公司从其开放获取的STM领域内容中，选取了10个不同领域的110篇文章构成，包括农业、天文学、生物学、化学、计算机科学、地球科学、工程学、材料科学、数学和医学。每篇文章提供XML源文件、简易文本版本，以及带有多种标注的版本。

特点

该数据集的特点在于其内容的多样性及丰富的标注类型。涵盖了从词性标注、句子边界、名词短语和动词短语块、词干提取、句法成分分析，到维基百科概念识别和语篇分析等多种标注。特别地，数据集中的10篇文章已经被选为默认测试集，并创建了手动校正的树库，以供后续标注类型的添加与比较。

使用方法

用户可以使用该数据集进行自然语言处理、语言学和文本挖掘研究。数据集提供的XML源文件和简易文本版本便于文本挖掘，而带有不同类型标注的版本则可用于算法比较和特征选择。用户需遵守Creative Commons CC-BY许可证的规定，在使用和分发数据时，正确归属原作者。

背景与挑战

背景概述

OA-STM-Corpus是一个开放获取的科学、技术和医学内容语料库，旨在解决自然语言处理工具在STM（科学、技术、医学）领域中应用时的局限性。该语料库由Elsevier公司创建于近期，汇集了来自10个不同STM领域的文章，包括农业、天文学、生物学、化学、计算机科学、地球科学、工程学、材料科学、数学和医学。这些文章是从Elsevier的开放获取内容中精选而出，并拥有Creative Commons CC-BY许可，允许自由再分配和使用。该语料库不仅提供了文章的XML源文件和简易文本版本，还包含了多种类型的自动注释，如词性标注、句界划分、名词短语和动词短语块、词干、句法成分分析、维基百科概念识别和话语分析等。Elsevier还建立了一个树库，包含10篇文章的手工注释，以促进手动注释的过程。

当前挑战

尽管OA-STM-Corpus为STM领域的自然语言处理研究提供了宝贵的资源，但构建此类语料库仍然面临诸多挑战。首先，不同STM领域的文章内容和结构存在显著差异，这对语料库的通用性和注释的准确性提出了挑战。其次，语料库的构建过程中，自动化注释的质量控制是一个重要问题，尤其是在保证注释的一致性和准确性方面。此外，尽管提供了10篇文章的手工注释作为默认测试集，但为了更广泛地应用和验证NLP工具，仍需增加更多领域和更多文章的手工注释。

常用场景

经典使用场景

在自然语言处理领域，OA-STM-Corpus数据集因包含科学、技术与医学领域的丰富文本资源，而被广泛应用于模型的训练与测试。该数据集特别适用于那些需要针对STM领域特定内容进行优化的NLP工具，其提供的多样化文本格式和详尽的注释，使得它成为研究和开发人员开展文本挖掘、信息提取和语义理解等任务的重要资源。

实际应用

在实际应用中，OA-STM-Corpus数据集可用于支持学术搜索引擎的优化，帮助提高文献检索的准确性；同时，它也为知识图谱构建、学术趋势分析以及智能出版等领域提供了基础数据支撑，对于促进学术信息的传播和利用具有显著意义。

衍生相关工作

基于OA-STM-Corpus数据集，已经衍生出包括树库构建、多类型注释对比、算法性能评估等经典研究工作。这些相关工作不仅促进了NLP技术在STM领域的应用，还为语言学、文本挖掘等领域的学者提供了宝贵的研究材料和实验平台。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集