Open-PMC
收藏arXiv2025-03-19 更新2025-03-20 收录
下载链接:
https://github.com/vectorInstitute/pmc-data-extraction
下载链接
链接失效反馈官方服务:
资源简介:
Open-PMC是一个从PubMed Central文章中精心筛选出的高质量医学图像-文本对数据集,包含220万对图像和文本。每对数据包括从文章中提取的医学图像(子图)、相应的标题、文本中的参考文献摘要以及图像的医学模式。该数据集通过细致的图像分解和文本上下文增强,为医学多模态学习提供了丰富的资源。
Open-PMC is a high-quality medical image-text pair dataset carefully curated from PubMed Central articles, containing 2.2 million image-text pairs. Each pair includes medical images (sub-images) extracted from the articles, their corresponding captions, reference abstracts from the article text, and the medical imaging modality of the images. This dataset provides abundant resources for medical multimodal learning via meticulous image decomposition and text context enhancement.
提供机构:
约克大学
创建时间:
2025-03-19
搜集汇总
数据集介绍

构建方式
Open-PMC数据集的构建过程基于PubMed Central(PMC)的开放获取子集,通过扩展PMC-OA的管道,集成了额外的处理步骤。首先,从PMC中提取了超过400万篇开放获取文章,使用XML解析和正则表达式提取图像、标题和文中引用。随后,通过多步过滤过程,剔除了格式错误或缺少标题的文章,最终保留了220万对高质量的医学图像-文本对。图像经过基于DETR的模型分解为子图,并使用ResNet-101模型进行分类,确保仅保留医学图像。文本部分则通过GPT-4o进行分段和对齐,确保子图与子标题的精确匹配。此外,文中引用通过GPT-4o-mini进行总结,进一步丰富了文本的医学上下文。
特点
Open-PMC数据集的核心特点在于其高质量和丰富的上下文信息。数据集包含220万对医学图像-文本对,每对数据包括从文章中提取的医学子图、对应的标题、文中引用及其总结,以及图像的医学模态信息(如放射学、显微镜、可见光摄影等)。与现有数据集相比,Open-PMC通过图像分解和文本增强,提供了更精细的医学上下文信息。特别是文中引用的总结,扩展了标题的医学背景,使得数据集在医学视觉-语言模型训练中具有显著优势。此外,数据集的所有图像均经过严格的模态分类,确保了数据的医学相关性和高质量。
使用方法
Open-PMC数据集的使用方法主要围绕医学视觉-语言模型的训练和评估展开。研究人员可以利用该数据集进行对比学习,训练视觉和文本编码器,以对齐图像和文本表示。数据集特别适用于医学图像检索和零样本分类任务。在检索任务中,模型可以通过图像到文本或文本到图像的检索,评估其在医学图像理解中的表现。在零样本分类任务中,模型可以在未见过的医学图像分类任务中进行评估,验证其泛化能力。此外,Open-PMC还提供了预训练模型和代码库,研究人员可以直接使用这些资源进行实验,进一步推动医学人工智能的发展。
背景与挑战
背景概述
Open-PMC数据集由York University、Vector Institute、University of Toronto等机构的研究团队于2025年推出,旨在通过高质量的多模态医学数据推动医学表示学习的发展。该数据集从PubMed Central的开放获取子集中提取,包含220万对图像-文本对,涵盖了放射学、显微镜和可见光摄影等多种医学成像模态。Open-PMC的独特之处在于其图像分解技术,将复合图像分解为子图,并通过GPT-4o模型生成上下文丰富的文本摘要,提供了比传统数据集更丰富的医学背景信息。该数据集的发布为医学人工智能领域的研究提供了重要的资源,推动了多模态医学AI的进步。
当前挑战
Open-PMC数据集在构建过程中面临多重挑战。首先,医学文献中的图像通常为复合图像,其对应的文本描述往往缺乏详细的临床背景信息,这给图像与文本的精确对齐带来了困难。其次,医学图像的模态多样且复杂,如何准确分类和标注这些图像成为一大难题。此外,从文献中提取的文本信息通常较为冗长,如何从中提取出与图像相关的关键信息并生成简洁的摘要,也是数据集构建中的一大挑战。尽管Open-PMC通过图像分解和文本增强技术部分解决了这些问题,但其图像分解技术主要针对放射学图像,对其他医学模态的适用性仍需进一步优化。未来,如何扩展图像分解技术以覆盖更多医学模态,以及如何通过更严格的质量控制提升数据集的可靠性,仍是Open-PMC面临的主要挑战。
常用场景
经典使用场景
Open-PMC数据集在医学视觉-语言(Vision-Language, VL)建模中展现了其经典应用场景。该数据集通过高质量的图像-文本对,支持医学图像检索、零样本分类等任务。其独特的子图分解和上下文丰富的文本注释,使得模型能够在医学图像的多模态表示学习中取得显著进展。Open-PMC的经典使用场景包括医学图像的跨模态检索任务,例如从放射学报告中检索相关图像,或从图像中生成对应的文本描述。
解决学术问题
Open-PMC数据集解决了医学领域中数据质量与模型性能之间的关键问题。传统医学数据集往往依赖于自动化爬取,导致图像与文本的上下文信息不足,限制了模型的表示学习能力。Open-PMC通过引入子图分解和上下文丰富的文本注释,显著提升了医学图像的多模态表示学习效果。实验表明,尽管Open-PMC的规模较小,但其在医学图像检索和零样本分类任务中的表现优于更大规模的数据集,证明了数据质量在医学AI中的重要性。
衍生相关工作
Open-PMC数据集的发布衍生了一系列相关研究工作。例如,基于Open-PMC的医学图像检索模型在多个基准数据集上取得了领先的性能,推动了医学图像检索技术的发展。此外,Open-PMC的子图分解技术也被应用于其他医学数据集,提升了这些数据集的表示学习能力。Open-PMC的上下文增强文本注释方法也被其他研究团队借鉴,用于改进医学图像的多模态表示学习。这些衍生工作进一步巩固了Open-PMC在医学AI领域的重要地位。
以上内容由遇见数据集搜集并总结生成



