OPEN-PMC-18M
收藏arXiv2025-06-04 更新2025-06-05 收录
下载链接:
https://huggingface.co/datasets/vector-institute/open-pmc-18m
下载链接
链接失效反馈官方服务:
资源简介:
OPEN-PMC-18M是一个大规模高质量的生物医学视觉语言数据集,包含1800万个临床相关的子图-标题对,涵盖了放射学、显微学和可见光摄影。该数据集的创建过程涉及从BIOMEDICA语料库中筛选出600万个图像-标题对,然后使用基于Transformer的对象检测模型DAB-DETR从复合图像中提取子图,最终得到高质量的图像-标题对。该数据集的应用领域包括医学视觉语言模型和表示学习,旨在解决医学图像-文本对齐问题,提高模型的性能和临床实用性。
OPEN-PMC-18M is a large-scale, high-quality biomedical vision-language dataset containing 18 million clinically relevant subgraph-title pairs, covering radiology, microscopy, and visible light photography. The construction of this dataset involves first filtering 6 million image-title pairs from the BIOMEDICA corpus, then extracting subgraphs from composite images using the Transformer-based object detection model DAB-DETR, ultimately yielding high-quality image-title pairs. Application scenarios of this dataset include medical vision-language models and representation learning, aiming to address the medical image-text alignment task and improve model performance and clinical utility.
提供机构:
向量研究所
创建时间:
2025-06-03
搜集汇总
数据集介绍

构建方式
OPEN-PMC-18M数据集的构建采用了创新的多阶段流程,首先基于BIOMEDICA数据集筛选出600万对临床相关的图像-标题对。随后通过基于DAB-DETR架构的Transformer目标检测模型,在50万张程序化生成的合成复合图像上进行训练,实现了对生物医学复合图中子图的高精度提取。该流程最终从原始复合图中分解出约3200万张子图,经过模态标签过滤和ResNet-101分类器的医学相关性验证,最终精选出1800万对高质量的子图-标题对。
特点
作为当前规模最大的生物医学视觉-语言数据集之一,OPEN-PMC-18M涵盖了放射学(18%)、显微病理学(73%)和可见光摄影(8%)三大模态,其独特价值体现在两方面:一是通过子图分解实现了图像-文本的精细对齐,平均标题长度达165.8个标记,有效提升了多模态表征学习的精确度;二是数据来源覆盖PubMed Central开放获取文献,确保了临床相关性和学术权威性。该数据集突破了传统复合图处理的局限性,为医学视觉语言模型训练提供了前所未有的高保真数据支持。
使用方法
该数据集专为生物医学多模态表征学习设计,支持对比学习、跨模态检索和零样本分类等多种训练范式。研究人员可通过Hugging Face平台获取标准化数据,利用预训练的视觉编码器(ViT-B/16)和文本编码器(PubMedBERT)构建联合嵌入空间。在具体应用中,建议采用InfoNCE损失函数进行对比学习优化,并可通过线性探测或微调策略适配下游任务如医学图像检索、报告生成等。数据集提供的精细模态标签支持针对放射学、病理学等特定领域的定向研究。
背景与挑战
背景概述
OPEN-PMC-18M是由Vector Institute和约克大学的研究团队于2025年推出的一个大规模高质量生物医学视觉-语言数据集。该数据集包含1800万个子图-标题对,涵盖放射学、显微镜检查和可见光摄影等多种医学成像模态。OPEN-PMC-18M的创建旨在解决生物医学文献中普遍存在的复合图分解问题,通过基于Transformer的目标检测方法实现子图的高精度提取。这一工作填补了生物医学视觉-语言模型在数据质量和规模上的关键空白,为医学图像表示学习提供了重要资源。
当前挑战
OPEN-PMC-18M面临的主要挑战包括:1) 领域问题方面,生物医学复合图具有复杂的结构异质性,不同子图可能呈现不同的成像模态或临床概念,这对高保真图像-文本对齐提出了严峻挑战;2) 构建过程中,研究人员需要克服合成数据与真实生物医学图像之间的域差距问题,并解决小规模标注数据导致的模型性能次优问题。此外,确保18百万对数据的临床相关性和质量也带来了巨大的数据过滤和验证挑战。
常用场景
经典使用场景
在生物医学视觉-语言模型(VLM)的研究中,OPEN-PMC-18M数据集因其高质量的图像-文本对齐特性,成为训练和评估多模态表示学习模型的黄金标准。该数据集广泛应用于跨模态检索任务,例如图像到文本(I2T)和文本到图像(T2I)检索,特别是在放射学、显微镜和可见光摄影等医学影像模态中。通过其18万个子图-标题对,研究者能够显著提升模型在复杂医学图像中的语义理解和检索精度。
实际应用
在实际应用中,OPEN-PMC-18M为临床诊断支持系统提供了强大的数据支撑。例如,在放射学报告中,模型可利用该数据集训练的编码器自动生成与影像匹配的文本描述;在病理学研究中,其高精度的子图标注有助于开发自动化组织分类工具。此外,数据集的跨模态特性还推动了医学教育工具的开发,如交互式影像检索平台,帮助医学生快速关联视觉内容与理论知识。
衍生相关工作
围绕OPEN-PMC-18M衍生的经典工作包括基于对比学习的多模态编码器架构优化,如结合PubMedBERT文本编码器和ViT-B/16视觉编码器的混合模型。该数据集还启发了后续研究如BioMedCLIP和BIOMEDICA-CLIP的改进,这些模型通过引入更精细的模态感知预训练策略,进一步提升了在特定医学影像分类任务中的表现。此外,其子图提取管道为后续合成数据生成方法(如程序化构建复合图像)提供了重要参考。
以上内容由遇见数据集搜集并总结生成



