PMC Structured Abstracts dataset
收藏github2020-06-21 更新2024-05-31 收录
下载链接:
https://github.com/StefHill/PMC-StructuredAbstracts-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于科学出版物的结构化摘要,包含从PMC-OA集合中提取的.nxml文件,经过处理后导出为二进制格式。
本数据集旨在服务于科学文献的规范化摘要需求,其中收录了自PMC-OA集合中提取的.nxml文件,经处理转化为二进制格式。
创建时间:
2020-06-13
原始信息汇总
PMC-StructuredAbstracts-Dataset 概述
数据集描述
- 来源:该数据集由PMC-OA集合的.nxml文件处理而成,原始文件可从此处获取。
- 目的:用于支持论文*Structured Summarization of Academic Publications*中的研究。
- 引用要求:使用此数据集时,应引用上述论文。
数据集内容
- pmc_ids目录:包含训练、验证和测试集中的pmc id。
- 输出文件:
- 词汇文件:包含词汇表及特殊标记。
- pmc_ids目录:包含训练、验证和测试集中的文件pmc id。
- 三个目录(train, val, test):包含对应的.bin数据文件。
数据处理
- 处理步骤:
- 从PMC网站下载并解压nxml格式的数据文件。
- 运行
python data_processing.py进行数据处理。
- 警告:处理整个数据集可能需要约10小时(16核机器)。
数据访问
- .bin文件读取:建议使用数据生成器读取,示例代码见
sample_datagen.py。
依赖项
- 软件需求:
- Pyspark
- Tensorflow
- LXML
- NLTK
- NumPy
- 安装命令:
pip install -r requirements.txt
搜集汇总
数据集介绍

构建方式
PMC Structured Abstracts数据集的构建基于PMC-OA(PubMed Central Open Access)集合中的.nxml文件。通过数据预处理脚本,这些文件被解析并转换为二进制格式,以便于后续的机器学习任务。处理过程包括从原始文件中提取结构化摘要信息,并将其划分为训练集、验证集和测试集。整个处理流程在分布式计算框架Pyspark的支持下进行,确保了大规模数据的高效处理。
特点
该数据集的核心特点在于其结构化摘要的丰富性,涵盖了广泛的学术出版物领域。每个摘要被精心处理为二进制格式,便于快速加载和处理。数据集还提供了词汇表文件,包含所有词汇及特殊标记,为自然语言处理任务提供了便利。此外,数据集明确划分了训练、验证和测试集,确保了模型评估的严谨性。
使用方法
使用PMC Structured Abstracts数据集时,用户需首先从PMC网站下载并解压.nxml格式的文件。随后,通过运行提供的Python脚本进行数据预处理,生成二进制格式的数据文件。用户可使用示例代码中的data generator读取这些二进制文件,并进一步构建自定义的数据生成器。为充分利用该数据集,建议参考相关文献和代码库,以深入理解其数据格式和处理流程。
背景与挑战
背景概述
PMC Structured Abstracts数据集由科研团队于2019年发布,旨在解决学术文献结构化摘要生成的核心问题。该数据集基于PubMed Central Open Access(PMC-OA)资源,涵盖了大量的生物医学文献,并通过自动化处理工具将原始XML文件转换为二进制格式,便于机器学习模型的训练与评估。该数据集的创建为自然语言处理领域,尤其是学术文献摘要生成任务,提供了重要的数据支持,推动了相关算法的研究与优化。其核心研究问题在于如何从复杂的学术文献中提取关键信息,并生成结构化的摘要,从而提升文献检索与理解的效率。
当前挑战
PMC Structured Abstracts数据集在构建与应用过程中面临多重挑战。首先,学术文献的复杂性与多样性使得结构化摘要生成任务极具挑战性,尤其是生物医学领域的文献通常包含大量专业术语与复杂句式,这对模型的语义理解能力提出了更高要求。其次,数据集的构建过程涉及大规模XML文件的处理与转换,计算资源消耗巨大,处理时间长达数小时,对硬件性能与算法效率提出了较高要求。此外,如何确保生成摘要的准确性与可读性,同时避免信息丢失或冗余,也是该领域亟待解决的关键问题。
常用场景
经典使用场景
PMC Structured Abstracts数据集在自然语言处理领域中被广泛应用于结构化摘要生成任务。该数据集通过处理PubMed Central开放获取文献的.nxml文件,生成了包含训练、验证和测试集的二进制格式数据。研究人员利用这些数据训练模型,以自动生成学术文献的结构化摘要,从而提升文献检索和知识管理的效率。
衍生相关工作
基于PMC Structured Abstracts数据集,许多经典的自然语言处理工作得以衍生。例如,研究人员开发了基于指针生成网络的摘要生成模型,显著提升了摘要的准确性和可读性。此外,该数据集还促进了多任务学习模型的发展,使得模型能够同时处理摘要生成和关键词提取等任务,进一步推动了学术文献处理技术的进步。
数据集最近研究
最新研究方向
在生物医学文献摘要结构化领域,PMC Structured Abstracts数据集为研究者提供了丰富的资源,推动了自动摘要生成技术的发展。近年来,随着深度学习技术的进步,该数据集被广泛应用于基于神经网络的摘要生成模型训练,尤其是在指针生成网络(Pointer-Generator Networks)和Transformer架构的应用中表现突出。研究者们通过该数据集探索如何从复杂的学术文献中提取关键信息,并生成简洁、连贯的摘要,从而提升文献检索和知识管理的效率。此外,该数据集还被用于跨领域迁移学习的研究,旨在将生物医学领域的摘要生成技术推广至其他学科。这些研究不仅推动了自然语言处理技术的边界,也为生物医学信息学的发展提供了重要支持。
以上内容由遇见数据集搜集并总结生成



