five

BioVFM-21M|医疗图像数据集|机器学习数据集

收藏
arXiv2025-05-14 更新2025-05-16 收录
医疗图像
机器学习
下载链接:
https://github.com/JiarunLiu/BioVFM-21M
下载链接
链接失效反馈
资源简介:
BioVFM-21M是一个包含超过2100万张生物医学图像的大规模数据集,涵盖了10种不同的成像模态和30种解剖结构。该数据集旨在支持可扩展的预训练,并用于开发可扩展的医疗视觉基础模型。数据集来源于43个公开的数据源,确保了透明度和可访问性。通过自监督学习,BioVFM-21M在12个医学基准测试中表现优异,证明了其在医疗图像分析领域的潜在价值。
提供机构:
中国科学院深圳先进技术研究院保罗·劳特伯生物医学影像研究中心, 中国科学院大学, 澳门理工大学应用科学学院
创建时间:
2025-05-14
AI搜集汇总
数据集介绍
main_image_url
构建方式
BioVFM-21M数据集的构建遵循三大核心原则:规模性、多样性与公开性。研究团队从43个公开数据源中精选了2100万张生物医学图像,覆盖10种成像模态和30种解剖结构,确保数据在微观至宏观层面的全面性。通过排除测试集、验证集及与评估基准重叠的数据,采用轴向/矢状/冠状面切片处理3D图像,并过滤无解剖信息的填充切片和异常宽高比图像,最终构建出标准化至224×224像素的高质量数据集。所有数据来源与处理代码均公开,为医学视觉基础模型研究提供了透明可复现的资源支撑。
使用方法
BioVFM-21M主要服务于自监督医学视觉基础模型的预训练与研究。使用者可通过开源链接获取数据集元信息与处理代码,按照提供的模态-解剖分类体系构建训练子集。建议采用MAE或DINOv2等自监督算法,在8×A100 GPU环境下进行分布式训练。对于下游任务微调,研究团队在12个MedMNIST基准测试中验证了线性探测方案的有效性,推荐使用AdamW优化器(lr=0.01)、128批次大小的配置。该数据集特别适合探究模型参数量、数据规模、模态多样性等因素对医学AI性能的缩放影响,但需注意不同解剖区域任务间存在的显著缩放效率差异。
背景与挑战
背景概述
BioVFM-21M数据集由中国科学院深圳先进技术研究院的刘嘉润团队于2025年提出,旨在解决生物医学图像分析领域的基础模型规模化训练问题。该数据集包含2100万张涵盖10种成像模态和30种解剖结构的生物医学图像,是目前规模最大、多样性最丰富的公开医学图像数据集之一。研究团队通过整合43个公开数据源,突破了传统医学数据集在模态单一性和样本规模上的局限,为探索医学视觉基础模型的缩放规律提供了关键数据支撑。其核心研究价值在于首次系统验证了模型参数量、数据规模、模态多样性等因素对医学基础模型性能的影响规律,相关成果发表于计算机视觉顶刊arXiv,对推动医学人工智能从专用模型向通用模型演进具有里程碑意义。
当前挑战
BioVFM-21M面临的挑战主要体现在两个方面:在领域问题层面,医学图像相较于自然图像具有更高的专业性和模态特异性,导致基础模型在跨模态泛化时面临特征表示学习的挑战,例如CT与显微镜图像间的域差异问题。在构建过程中,研究团队需解决多源数据标准化难题,包括处理3D图像的切片重建、去除无解剖信息的填充切片(共剔除900万低质量图像)、保持原始长宽比的同时统一分辨率至224×224像素等技术挑战。此外,为避免数据泄露,需精确排除180万测试集图像及所有基准评测相关数据源,这对数据清洗流程的严谨性提出了极高要求。
常用场景
经典使用场景
BioVFM-21M数据集在生物医学图像分析领域展现了广泛的应用潜力,尤其在自监督视觉基础模型的预训练和评估中表现突出。该数据集涵盖了10种成像模态和30种解剖结构,为研究人员提供了一个多样化的数据平台,用于探索模型在不同医学任务中的泛化能力。通过大规模数据的支持,BioVFM-21M能够有效验证模型在跨模态和跨解剖结构任务中的性能,成为生物医学图像分析领域的重要基准。
解决学术问题
BioVFM-21M解决了生物医学图像分析中数据稀缺和多样性的关键问题。传统医学数据集往往局限于特定模态或解剖结构,导致模型泛化能力受限。该数据集通过整合21百万张公开可用的生物医学图像,显著提升了模型的训练规模和多样性。此外,其自监督学习框架为医学图像分析提供了一种高效的预训练方法,减少了标注数据的依赖,推动了医学人工智能的发展。
实际应用
BioVFM-21M在实际医疗场景中具有广泛的应用前景。例如,在疾病诊断中,该数据集支持的预训练模型能够快速适应不同的医学影像任务,如CT、MR和X射线图像的分类与分割。其多样化的数据来源和模态覆盖,使得模型能够在不同医疗设备和环境下保持稳定的性能,为临床决策提供可靠支持。此外,该数据集的开源性进一步促进了全球医疗AI研究的协作与创新。
数据集最近研究
最新研究方向
BioVFM-21M数据集在生物医学图像分析领域的最新研究方向主要集中在自监督视觉基础模型的规模化训练与性能优化。该数据集通过整合10种成像模态和30种解剖结构的2100万张图像,为探索模型规模、训练算法、数据多样性和模态扩展之间的关系提供了重要基础。研究表明,模型性能的提升不仅依赖于参数规模的扩大,更与任务特性、数据异质性及预训练方法的选择密切相关。当前研究热点包括:多模态数据融合对模型泛化能力的促进作用、计算效率与性能增益的平衡策略,以及针对不同医学影像任务的定制化缩放规律分析。这些发现为开发下一代可扩展的医学基础模型提供了实证依据,对推动精准医疗和跨机构协作具有重要价值。
相关研究论文
  • 1
    BioVFM-21M: Benchmarking and Scaling Self-Supervised Vision Foundation Models for Biomedical Image Analysis中国科学院深圳先进技术研究院保罗·劳特伯生物医学影像研究中心, 中国科学院大学, 澳门理工大学应用科学学院 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Data_on_Data_Analysts

我们正在探索数据分析师职位的就业市场趋势:需求技能、薪资变化和招聘模式。该数据集汇编了美国数据分析师职位的招聘信息,直接来源于Google的职位搜索结果。数据收集始于2022年11月4日,并持续增长,每天新增约100个职位信息,提供了当前就业市场的持续更新快照。

github 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

ChemBL

ChemBL是一个化学信息学数据库,包含大量生物活性数据,涵盖了药物发现和开发过程中的各种化学实体。数据集包括化合物的结构信息、生物活性数据、靶点信息等。

www.ebi.ac.uk 收录

Traditional-Chinese-Medicine-Dataset-SFT

该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。

huggingface 收录

MedChain

MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集,包含12,163个临床案例,涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程,强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”,经过专业医生验证和去识别化处理,确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力,解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。

arXiv 收录