PMC Structured Abstracts dataset

github2023-12-03 更新2024-05-31 收录

下载链接：

https://github.com/AlexGidiotis/PMC-StructuredAbstracts-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于科学出版物的结构化摘要，包含从PMC-OA集合中提取的.nxml文件，经过处理后以二进制格式输出，用于学术出版物的摘要生成。

This dataset is designed for the structured summarization of scientific publications. It comprises .nxml files extracted from the PMC-OA collection, which are processed and output in a binary format, specifically tailored for the generation of academic publication summaries.

创建时间：

2019-06-20

原始信息汇总

PMC-StructuredAbstracts-Dataset 概述

数据集描述

数据集源自 PMC-OA 集合，可通过此处获取原始 .nxml 文件。
数据集用于支持论文 Structured Summarization of Academic Publications。
数据处理后以二进制格式输出。

数据集组成部分

pmc_ids 目录包含训练、验证和测试集的 pmc ids。
输出文件包括：
- 词汇文件，包含词汇及特殊标记。
- 包含训练、验证和测试集 pmc ids 的目录。
- train, val, test 三个目录，包含相应的 .bin 数据文件。

数据处理

使用 python data_processing.py 进行数据处理，参数包括输入输出路径及处理数量。
完整数据集处理时间约为 10 小时（16 核机器）。

数据访问

读取 .bin 文件需使用数据生成器，示例代码位于 sample_datagen.py。

依赖项

Pyspark
Tensorflow
LXML
NLTK
NumPy

安装依赖项可通过运行 pip install -r requirements.txt。

搜集汇总

数据集介绍

构建方式

PMC Structured Abstracts数据集是通过处理来自PMC-OA集合的.nxml文件构建而成。这些文件首先被下载并提取，随后通过运行特定的数据处理脚本进行转换，最终生成二进制格式的数据文件。数据处理过程包括词汇表的生成以及训练、验证和测试集的划分，整个过程在16核机器上大约需要10小时。

使用方法

使用PMC Structured Abstracts数据集时，用户需首先下载并提取.nxml格式的数据文件，随后通过运行数据处理脚本生成二进制文件。这些二进制文件可以通过数据生成器进行读取和处理。为了更高效地使用数据集，建议参考提供的示例代码和相关依赖库的安装说明。数据生成器的构建和使用方法可参考相关开源项目，以便更好地理解和应用该数据集。

背景与挑战

背景概述

PMC Structured Abstracts数据集由研究人员在2019年提出，旨在解决学术文献结构化摘要生成的核心问题。该数据集基于PubMed Central Open Access（PMC-OA）资源，涵盖了大量的生物医学文献，提供了丰富的结构化摘要数据。其主要贡献在于通过自动化方法从学术论文中提取关键信息，并生成结构化的摘要，从而为自然语言处理领域的研究提供了重要的数据支持。该数据集的发布推动了学术文献摘要生成技术的发展，并为相关领域的模型训练与评估提供了基准。

当前挑战

PMC Structured Abstracts数据集在构建与应用过程中面临多重挑战。首先，学术文献的多样性与复杂性使得摘要生成任务极具挑战性，尤其是在生物医学领域，专业术语和复杂句式的处理尤为困难。其次，数据集的构建依赖于大规模XML文件的处理，这对计算资源与处理效率提出了较高要求，尤其是在处理完整数据集时，耗时较长。此外，如何从非结构化文本中提取出准确的结构化信息，并确保生成摘要的连贯性与准确性，也是该数据集需要解决的关键问题。这些挑战不仅影响了数据集的构建效率，也对后续模型的训练与优化提出了更高的要求。

常用场景

经典使用场景

PMC Structured Abstracts数据集在自然语言处理领域中被广泛用于结构化摘要生成任务。该数据集通过提取PubMed Central（PMC）开放获取文献中的结构化摘要，为研究人员提供了一个高质量的语料库，用于训练和评估摘要生成模型。其经典使用场景包括自动生成学术论文的摘要，帮助研究人员快速理解文献的核心内容。

解决学术问题

该数据集有效解决了学术文献摘要生成中的关键问题，如摘要的准确性和信息密度。通过提供结构化的摘要数据，研究人员能够开发出更精确的模型，自动提取文献的核心信息，减少人工阅读和总结的时间成本。这一数据集的出现推动了自动摘要生成技术的发展，为学术文献的高效处理提供了重要支持。

实际应用

在实际应用中，PMC Structured Abstracts数据集被广泛应用于学术搜索引擎和文献管理工具中。通过利用该数据集训练的模型，用户能够快速获取文献的核心信息，提升文献检索和阅读的效率。此外，该数据集还被用于开发智能辅助写作工具，帮助研究人员在撰写论文时自动生成高质量的摘要。

数据集最近研究