BioVFM-21M
收藏arXiv2025-05-14 更新2025-05-16 收录
下载链接:
https://github.com/JiarunLiu/BioVFM-21M
下载链接
链接失效反馈官方服务:
资源简介:
BioVFM-21M是一个包含超过2100万张生物医学图像的大规模数据集,涵盖了10种不同的成像模态和30种解剖结构。该数据集旨在支持可扩展的预训练,并用于开发可扩展的医疗视觉基础模型。数据集来源于43个公开的数据源,确保了透明度和可访问性。通过自监督学习,BioVFM-21M在12个医学基准测试中表现优异,证明了其在医疗图像分析领域的潜在价值。
BioVFM-21M is a large-scale dataset containing over 21 million biomedical images, covering 10 distinct imaging modalities and 30 anatomical structures. This dataset aims to support scalable pre-training and the development of scalable medical visual foundation models. It is sourced from 43 public data sources, ensuring transparency and accessibility. Through self-supervised learning, BioVFM-21M has achieved excellent performance across 12 medical benchmarks, demonstrating its potential value in the field of medical image analysis.
提供机构:
中国科学院深圳先进技术研究院保罗·劳特伯生物医学影像研究中心, 中国科学院大学, 澳门理工大学应用科学学院
创建时间:
2025-05-14
搜集汇总
数据集介绍

构建方式
BioVFM-21M数据集的构建遵循三大核心原则:规模性、多样性与公开性。研究团队从43个公开数据源中精选了2100万张生物医学图像,覆盖10种成像模态和30种解剖结构,确保数据在微观至宏观层面的全面性。通过排除测试集、验证集及与评估基准重叠的数据,采用轴向/矢状/冠状面切片处理3D图像,并过滤无解剖信息的填充切片和异常宽高比图像,最终构建出标准化至224×224像素的高质量数据集。所有数据来源与处理代码均公开,为医学视觉基础模型研究提供了透明可复现的资源支撑。
使用方法
BioVFM-21M主要服务于自监督医学视觉基础模型的预训练与研究。使用者可通过开源链接获取数据集元信息与处理代码,按照提供的模态-解剖分类体系构建训练子集。建议采用MAE或DINOv2等自监督算法,在8×A100 GPU环境下进行分布式训练。对于下游任务微调,研究团队在12个MedMNIST基准测试中验证了线性探测方案的有效性,推荐使用AdamW优化器(lr=0.01)、128批次大小的配置。该数据集特别适合探究模型参数量、数据规模、模态多样性等因素对医学AI性能的缩放影响,但需注意不同解剖区域任务间存在的显著缩放效率差异。
背景与挑战
背景概述
BioVFM-21M数据集由中国科学院深圳先进技术研究院的刘嘉润团队于2025年提出,旨在解决生物医学图像分析领域的基础模型规模化训练问题。该数据集包含2100万张涵盖10种成像模态和30种解剖结构的生物医学图像,是目前规模最大、多样性最丰富的公开医学图像数据集之一。研究团队通过整合43个公开数据源,突破了传统医学数据集在模态单一性和样本规模上的局限,为探索医学视觉基础模型的缩放规律提供了关键数据支撑。其核心研究价值在于首次系统验证了模型参数量、数据规模、模态多样性等因素对医学基础模型性能的影响规律,相关成果发表于计算机视觉顶刊arXiv,对推动医学人工智能从专用模型向通用模型演进具有里程碑意义。
当前挑战
BioVFM-21M面临的挑战主要体现在两个方面:在领域问题层面,医学图像相较于自然图像具有更高的专业性和模态特异性,导致基础模型在跨模态泛化时面临特征表示学习的挑战,例如CT与显微镜图像间的域差异问题。在构建过程中,研究团队需解决多源数据标准化难题,包括处理3D图像的切片重建、去除无解剖信息的填充切片(共剔除900万低质量图像)、保持原始长宽比的同时统一分辨率至224×224像素等技术挑战。此外,为避免数据泄露,需精确排除180万测试集图像及所有基准评测相关数据源,这对数据清洗流程的严谨性提出了极高要求。
常用场景
经典使用场景
BioVFM-21M数据集在生物医学图像分析领域展现了广泛的应用潜力,尤其在自监督视觉基础模型的预训练和评估中表现突出。该数据集涵盖了10种成像模态和30种解剖结构,为研究人员提供了一个多样化的数据平台,用于探索模型在不同医学任务中的泛化能力。通过大规模数据的支持,BioVFM-21M能够有效验证模型在跨模态和跨解剖结构任务中的性能,成为生物医学图像分析领域的重要基准。
解决学术问题
BioVFM-21M解决了生物医学图像分析中数据稀缺和多样性的关键问题。传统医学数据集往往局限于特定模态或解剖结构,导致模型泛化能力受限。该数据集通过整合21百万张公开可用的生物医学图像,显著提升了模型的训练规模和多样性。此外,其自监督学习框架为医学图像分析提供了一种高效的预训练方法,减少了标注数据的依赖,推动了医学人工智能的发展。
实际应用
BioVFM-21M在实际医疗场景中具有广泛的应用前景。例如,在疾病诊断中,该数据集支持的预训练模型能够快速适应不同的医学影像任务,如CT、MR和X射线图像的分类与分割。其多样化的数据来源和模态覆盖,使得模型能够在不同医疗设备和环境下保持稳定的性能,为临床决策提供可靠支持。此外,该数据集的开源性进一步促进了全球医疗AI研究的协作与创新。
数据集最近研究
最新研究方向
BioVFM-21M数据集在生物医学图像分析领域的最新研究方向主要集中在自监督视觉基础模型的规模化训练与性能优化。该数据集通过整合10种成像模态和30种解剖结构的2100万张图像,为探索模型规模、训练算法、数据多样性和模态扩展之间的关系提供了重要基础。研究表明,模型性能的提升不仅依赖于参数规模的扩大,更与任务特性、数据异质性及预训练方法的选择密切相关。当前研究热点包括:多模态数据融合对模型泛化能力的促进作用、计算效率与性能增益的平衡策略,以及针对不同医学影像任务的定制化缩放规律分析。这些发现为开发下一代可扩展的医学基础模型提供了实证依据,对推动精准医疗和跨机构协作具有重要价值。
相关研究论文
- 1BioVFM-21M: Benchmarking and Scaling Self-Supervised Vision Foundation Models for Biomedical Image Analysis中国科学院深圳先进技术研究院保罗·劳特伯生物医学影像研究中心, 中国科学院大学, 澳门理工大学应用科学学院 · 2025年
以上内容由遇见数据集搜集并总结生成



