FOMO60K
收藏arXiv2026-04-14 更新2026-04-15 收录
下载链接:
https://huggingface.co/datasets/FOMO-MRI/FOMO60K
下载链接
链接失效反馈官方服务:
资源简介:
FOMO60K是由16个公开来源整合的大规模脑MRI数据集,包含60,529次扫描,覆盖11,187名受试者的13,900次扫描会话。该数据集具有显著的异质性,涵盖不同人口统计特征、扫描设备型号、场强及采集协议。数据经过RAS方向重定向和会话内仿射配准,所有图像均进行去颅骨或去标识处理。该数据集旨在支持临床环境下脑MRI基础模型的开发,通过自监督学习解决临床数据噪声大、标注稀缺的核心挑战,应用于脑梗死分类、脑膜瘤分割和脑年龄回归等任务。
FOMO60K is a large-scale brain MRI dataset compiled from 16 public sources, comprising 60,529 scans across 13,900 scanning sessions from 11,187 unique subjects. This dataset exhibits significant heterogeneity, encompassing diverse demographic characteristics, scanner models, magnetic field strengths, and acquisition protocols. The data was reoriented to the RAS coordinate system and underwent intra-session affine registration, and all images were processed with skull stripping or de-identification. This dataset is designed to support the development of brain MRI foundation models in clinical environments, addressing the core challenges of high noise and scarce annotations in clinical data through self-supervised learning, with potential applications including cerebral infarction classification, meningioma segmentation, and brain age regression.
提供机构:
哥本哈根大学·计算机科学系; 先锋人工智能中心; 哥本哈根大学医院·生物与精准精神病学研究中心; 麻省总医院·Athinoula A. 马丁诺斯生物医学影像中心; 麻省理工学院·计算机科学与人工智能实验室; 约翰霍普金斯大学; 德国癌症研究中心·医学影像计算部; 不列颠哥伦比亚大学; 伦敦大学学院·霍克斯研究所; 帝国理工学院·国家心肺研究所
创建时间:
2026-04-14
搜集汇总
数据集介绍

构建方式
FOMO60K数据集构建于神经影像学领域,旨在应对临床脑MRI数据异质性与标注稀缺的挑战。该数据集整合了来自16个公开来源的60,529个脑部MRI扫描,涵盖11,187名受试者,数据采集自多样化的临床与研究环境。构建过程中,所有图像均经过重新定向至RAS坐标系,并在每个会话内通过仿射配准对齐至高分辨率扫描,同时进行了颅骨剥离或面部去标识化处理,以确保数据的标准化与隐私保护。这种大规模、多中心的汇集策略,显著提升了数据集的代表性与泛化潜力。
使用方法
FOMO60K数据集主要用于脑MRI基础模型的预训练与评估。在FOMO25挑战赛中,参与者利用该数据集进行自监督预训练,随后在少样本标注条件下,针对脑梗死分类、脑膜瘤分割及脑年龄回归三项下游任务进行微调。使用方法强调模型在域外数据上的泛化能力与标签效率,通过标准化容器化流程进行评估。数据集以CC BY-NC-SA 4.0许可发布,支持研究社区在确保数据合规的前提下,探索脑MRI表征学习的前沿方法。
背景与挑战
背景概述
FOMO60K数据集于2025年作为MICCAI卫星会议FOMO25挑战赛的核心资源发布,由哥本哈根大学、麻省理工学院、约翰霍普金斯大学等全球多所顶尖研究机构的学者联合构建。该数据集旨在应对脑磁共振成像(MRI)分析在临床部署中的根本性挑战:临床数据具有高度异质性与噪声,而高质量标注的获取成本极其昂贵。其核心研究问题是探索如何利用自监督学习范式,从临床工作流产生的大量未标注MRI扫描中预训练鲁棒的基础模型,从而在标注稀缺且存在域偏移的现实场景中实现高效的少样本适应与跨域泛化。FOMO60K的发布标志着脑MRI基础模型研究从依赖小规模、高质量研究数据向大规模、临床异构数据的重要范式转变,为评估模型在真实临床环境中的泛化能力设立了新基准。
当前挑战
FOMO60K所针对的领域挑战在于解决脑MRI分析中监督学习模型对标注数据的高度依赖及其在临床异构数据上泛化性能不足的问题。具体而言,模型在跨机构、跨扫描仪、跨采集协议时性能显著下降,而临床标注的稀缺性进一步限制了监督模型的广泛应用。在数据集构建过程中,研究者面临多重挑战:首先,需要整合来自16个公开来源的60,529例扫描,处理其在受试者人口统计学、扫描仪厂商、场强、采集协议和序列类型上的极端异质性;其次,为确保数据可用于预训练,需进行复杂的预处理流水线,包括重新定向至RAS坐标系、会话内仿射配准,以及头骨剥离或去标识化;最后,构建旨在评估模型少样本与跨域泛化能力的下游任务(如梗死分类、脑膜瘤分割、脑龄回归)时,需精心设计数据划分,确保微调数据量小,而验证与测试数据源自完全不同的地理区域与医疗机构,以模拟真实的域偏移场景。
常用场景
经典使用场景
在脑磁共振成像分析领域,FOMO60K数据集最经典的使用场景是作为自监督预训练的大规模无标注数据源。该数据集汇聚了来自临床和研究环境的六万余例结构脑MRI扫描,其高度异质性的特点使其成为训练脑影像基础模型的理想预训练语料。研究人员通常利用掩码自编码器或对比学习等自监督目标,在该数据集上预训练编码器,以学习对扫描设备、采集协议和患者群体变化具有鲁棒性的通用视觉表征。这种预训练范式旨在克服临床数据标注成本高昂的瓶颈,为后续在有限标注数据下的下游任务微调奠定基础。
解决学术问题
FOMO60K数据集主要解决了脑MRI分析中因标注数据稀缺和临床数据分布偏移导致的模型泛化能力不足这一核心学术问题。传统全监督方法在跨中心、跨设备部署时性能显著下降,而该数据集通过提供大规模、多样化的无标注影像,使得基于自监督学习的基础模型能够从数据异质性中学习不变特征。其意义在于推动了脑影像分析范式从任务特定的监督学习向通用表征学习的转变,证明了在临床级数据上进行预训练能够有效提升模型在少样本、跨域场景下的适应能力,为构建鲁棒且可泛化的医疗人工智能系统提供了关键数据支撑。
实际应用
在实际临床部署中,FOMO60K数据集支撑的基础模型能够显著提升自动化脑MRI分析工具在真实世界环境中的实用性。例如,在脑卒中筛查中,基于该数据集预训练的模型可利用少量标注样本快速适应不同医院的扫描协议,实现对缺血性梗死的准确分类;在脑膜瘤手术规划中,模型能够从有限的标注中学习肿瘤分割能力,并保持在不同扫描设备和图像质量下的分割一致性。此外,在脑年龄预测等生物标志物计算任务中,此类模型表现出对采集站点差异的强鲁棒性,使得基于常规临床扫描的定量分析结果更具可比性和可靠性,从而辅助疾病进展评估和健康状态监测。
数据集最近研究
最新研究方向
在脑磁共振成像领域,FOMO60K数据集的推出标志着自监督学习向临床实际应用迈出了关键一步。该数据集作为FOMO25挑战赛的核心预训练资源,旨在解决传统监督模型在临床异构数据中泛化能力不足的难题。前沿研究聚焦于探索不同自监督目标对下游任务的影响,例如掩码自编码器在分割任务中表现突出,而混合重建-对比目标则更有利于分类任务。这一发现揭示了未来模型设计需根据具体临床任务(如梗死分类、脑膜瘤分割和脑年龄回归)灵活调整预训练策略。此外,挑战赛结果还表明,在有限标注和跨域评估的设置下,经过大规模无标签数据预训练的模型能够超越传统监督基线,甚至在某些任务上优于基于域内数据训练的专家模型,这为脑MRI基础模型在真实临床场景中的部署提供了实证支持。当前研究热点正从单纯追求模型规模转向优化目标函数与数据异构性的协同,以提升模型在少样本和跨中心场景下的鲁棒性与适应性。
相关研究论文
- 1Towards Brain MRI Foundation Models for the Clinic: Findings from the FOMO25 Challenge哥本哈根大学·计算机科学系; 先锋人工智能中心; 哥本哈根大学医院·生物与精准精神病学研究中心; 麻省总医院·Athinoula A. 马丁诺斯生物医学影像中心; 麻省理工学院·计算机科学与人工智能实验室; 约翰霍普金斯大学; 德国癌症研究中心·医学影像计算部; 不列颠哥伦比亚大学; 伦敦大学学院·霍克斯研究所; 帝国理工学院·国家心肺研究所 · 2026年
以上内容由遇见数据集搜集并总结生成



