PMC Structured Abstracts dataset

github2020-06-21 更新2024-05-31 收录

下载链接：

https://github.com/StefHill/PMC-StructuredAbstracts-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于科学出版物的结构化摘要，包含从PMC-OA集合中提取的.nxml文件，经过处理后导出为二进制格式。

本数据集旨在服务于科学文献的规范化摘要需求，其中收录了自PMC-OA集合中提取的.nxml文件，经处理转化为二进制格式。

创建时间：

2020-06-13

原始信息汇总

PMC-StructuredAbstracts-Dataset 概述

数据集描述

来源：该数据集由PMC-OA集合的.nxml文件处理而成，原始文件可从此处获取。
目的：用于支持论文*Structured Summarization of Academic Publications*中的研究。
引用要求：使用此数据集时，应引用上述论文。

数据集内容

pmc_ids目录：包含训练、验证和测试集中的pmc id。
输出文件：
- 词汇文件：包含词汇表及特殊标记。
- pmc_ids目录：包含训练、验证和测试集中的文件pmc id。
- 三个目录（train, val, test）：包含对应的.bin数据文件。

数据处理

处理步骤：
1. 从PMC网站下载并解压nxml格式的数据文件。
2. 运行python data_processing.py进行数据处理。
警告：处理整个数据集可能需要约10小时（16核机器）。

数据访问

.bin文件读取：建议使用数据生成器读取，示例代码见sample_datagen.py。

依赖项

软件需求：
- Pyspark
- Tensorflow
- LXML
- NLTK
- NumPy
安装命令：pip install -r requirements.txt

搜集汇总

数据集介绍

构建方式

PMC Structured Abstracts数据集的构建基于PMC-OA（PubMed Central Open Access）集合中的.nxml文件。通过数据预处理脚本，这些文件被解析并转换为二进制格式，以便于后续的机器学习任务。处理过程包括从原始文件中提取结构化摘要信息，并将其划分为训练集、验证集和测试集。整个处理流程在分布式计算框架Pyspark的支持下进行，确保了大规模数据的高效处理。

特点

该数据集的核心特点在于其结构化摘要的丰富性，涵盖了广泛的学术出版物领域。每个摘要被精心处理为二进制格式，便于快速加载和处理。数据集还提供了词汇表文件，包含所有词汇及特殊标记，为自然语言处理任务提供了便利。此外，数据集明确划分了训练、验证和测试集，确保了模型评估的严谨性。

使用方法

使用PMC Structured Abstracts数据集时，用户需首先从PMC网站下载并解压.nxml格式的文件。随后，通过运行提供的Python脚本进行数据预处理，生成二进制格式的数据文件。用户可使用示例代码中的data generator读取这些二进制文件，并进一步构建自定义的数据生成器。为充分利用该数据集，建议参考相关文献和代码库，以深入理解其数据格式和处理流程。

背景与挑战

背景概述

PMC Structured Abstracts数据集由科研团队于2019年发布，旨在解决学术文献结构化摘要生成的核心问题。该数据集基于PubMed Central Open Access（PMC-OA）资源，涵盖了大量的生物医学文献，并通过自动化处理工具将原始XML文件转换为二进制格式，便于机器学习模型的训练与评估。该数据集的创建为自然语言处理领域，尤其是学术文献摘要生成任务，提供了重要的数据支持，推动了相关算法的研究与优化。其核心研究问题在于如何从复杂的学术文献中提取关键信息，并生成结构化的摘要，从而提升文献检索与理解的效率。

当前挑战

PMC Structured Abstracts数据集在构建与应用过程中面临多重挑战。首先，学术文献的复杂性与多样性使得结构化摘要生成任务极具挑战性，尤其是生物医学领域的文献通常包含大量专业术语与复杂句式，这对模型的语义理解能力提出了更高要求。其次，数据集的构建过程涉及大规模XML文件的处理与转换，计算资源消耗巨大，处理时间长达数小时，对硬件性能与算法效率提出了较高要求。此外，如何确保生成摘要的准确性与可读性，同时避免信息丢失或冗余，也是该领域亟待解决的关键问题。

常用场景

经典使用场景

PMC Structured Abstracts数据集在自然语言处理领域中被广泛应用于结构化摘要生成任务。该数据集通过处理PubMed Central开放获取文献的.nxml文件，生成了包含训练、验证和测试集的二进制格式数据。研究人员利用这些数据训练模型，以自动生成学术文献的结构化摘要，从而提升文献检索和知识管理的效率。

衍生相关工作

基于PMC Structured Abstracts数据集，许多经典的自然语言处理工作得以衍生。例如，研究人员开发了基于指针生成网络的摘要生成模型，显著提升了摘要的准确性和可读性。此外，该数据集还促进了多任务学习模型的发展，使得模型能够同时处理摘要生成和关键词提取等任务，进一步推动了学术文献处理技术的进步。

数据集最近研究