BioVFM-21M

Name: BioVFM-21M
Creator: 中国科学院深圳先进技术研究院保罗·劳特伯生物医学影像研究中心, 中国科学院大学, 澳门理工大学应用科学学院
Published: 2025-05-14 20:25:41
License: 暂无描述

arXiv2025-05-14 更新2025-05-16 收录

下载链接：

https://github.com/JiarunLiu/BioVFM-21M

下载链接

链接失效反馈

官方服务：

资源简介：

BioVFM-21M是一个包含超过2100万张生物医学图像的大规模数据集，涵盖了10种不同的成像模态和30种解剖结构。该数据集旨在支持可扩展的预训练，并用于开发可扩展的医疗视觉基础模型。数据集来源于43个公开的数据源，确保了透明度和可访问性。通过自监督学习，BioVFM-21M在12个医学基准测试中表现优异，证明了其在医疗图像分析领域的潜在价值。

BioVFM-21M is a large-scale dataset containing over 21 million biomedical images, covering 10 distinct imaging modalities and 30 anatomical structures. This dataset aims to support scalable pre-training and the development of scalable medical visual foundation models. It is sourced from 43 public data sources, ensuring transparency and accessibility. Through self-supervised learning, BioVFM-21M has achieved excellent performance across 12 medical benchmarks, demonstrating its potential value in the field of medical image analysis.

提供机构：

中国科学院深圳先进技术研究院保罗·劳特伯生物医学影像研究中心, 中国科学院大学, 澳门理工大学应用科学学院

创建时间：

2025-05-14

搜集汇总

数据集介绍

构建方式

BioVFM-21M数据集的构建遵循三大核心原则：规模性、多样性与公开性。研究团队从43个公开数据源中精选了2100万张生物医学图像，覆盖10种成像模态和30种解剖结构，确保数据在微观至宏观层面的全面性。通过排除测试集、验证集及与评估基准重叠的数据，采用轴向/矢状/冠状面切片处理3D图像，并过滤无解剖信息的填充切片和异常宽高比图像，最终构建出标准化至224×224像素的高质量数据集。所有数据来源与处理代码均公开，为医学视觉基础模型研究提供了透明可复现的资源支撑。

使用方法

BioVFM-21M主要服务于自监督医学视觉基础模型的预训练与研究。使用者可通过开源链接获取数据集元信息与处理代码，按照提供的模态-解剖分类体系构建训练子集。建议采用MAE或DINOv2等自监督算法，在8×A100 GPU环境下进行分布式训练。对于下游任务微调，研究团队在12个MedMNIST基准测试中验证了线性探测方案的有效性，推荐使用AdamW优化器（lr=0.01）、128批次大小的配置。该数据集特别适合探究模型参数量、数据规模、模态多样性等因素对医学AI性能的缩放影响，但需注意不同解剖区域任务间存在的显著缩放效率差异。

背景与挑战

背景概述

BioVFM-21M数据集由中国科学院深圳先进技术研究院的刘嘉润团队于2025年提出，旨在解决生物医学图像分析领域的基础模型规模化训练问题。该数据集包含2100万张涵盖10种成像模态和30种解剖结构的生物医学图像，是目前规模最大、多样性最丰富的公开医学图像数据集之一。研究团队通过整合43个公开数据源，突破了传统医学数据集在模态单一性和样本规模上的局限，为探索医学视觉基础模型的缩放规律提供了关键数据支撑。其核心研究价值在于首次系统验证了模型参数量、数据规模、模态多样性等因素对医学基础模型性能的影响规律，相关成果发表于计算机视觉顶刊arXiv，对推动医学人工智能从专用模型向通用模型演进具有里程碑意义。

当前挑战

BioVFM-21M面临的挑战主要体现在两个方面：在领域问题层面，医学图像相较于自然图像具有更高的专业性和模态特异性，导致基础模型在跨模态泛化时面临特征表示学习的挑战，例如CT与显微镜图像间的域差异问题。在构建过程中，研究团队需解决多源数据标准化难题，包括处理3D图像的切片重建、去除无解剖信息的填充切片（共剔除900万低质量图像）、保持原始长宽比的同时统一分辨率至224×224像素等技术挑战。此外，为避免数据泄露，需精确排除180万测试集图像及所有基准评测相关数据源，这对数据清洗流程的严谨性提出了极高要求。

常用场景

经典使用场景

BioVFM-21M数据集在生物医学图像分析领域展现了广泛的应用潜力，尤其在自监督视觉基础模型的预训练和评估中表现突出。该数据集涵盖了10种成像模态和30种解剖结构，为研究人员提供了一个多样化的数据平台，用于探索模型在不同医学任务中的泛化能力。通过大规模数据的支持，BioVFM-21M能够有效验证模型在跨模态和跨解剖结构任务中的性能，成为生物医学图像分析领域的重要基准。

解决学术问题

BioVFM-21M解决了生物医学图像分析中数据稀缺和多样性的关键问题。传统医学数据集往往局限于特定模态或解剖结构，导致模型泛化能力受限。该数据集通过整合21百万张公开可用的生物医学图像，显著提升了模型的训练规模和多样性。此外，其自监督学习框架为医学图像分析提供了一种高效的预训练方法，减少了标注数据的依赖，推动了医学人工智能的发展。

实际应用

BioVFM-21M在实际医疗场景中具有广泛的应用前景。例如，在疾病诊断中，该数据集支持的预训练模型能够快速适应不同的医学影像任务，如CT、MR和X射线图像的分类与分割。其多样化的数据来源和模态覆盖，使得模型能够在不同医疗设备和环境下保持稳定的性能，为临床决策提供可靠支持。此外，该数据集的开源性进一步促进了全球医疗AI研究的协作与创新。

数据集最近研究