FOMO60K

Name: FOMO60K
Creator: 丹麦哥本哈根大学计算机科学系, 先锋人工智能中心, 哥本哈根生物与精确精神病学研究中心, 美国Athinoula A. Martinos生物医学成像中心, 美国马萨诸塞总医院, 哈佛医学院, 美国麻省理工学院, 伦敦大学学院Hawkes研究所, 约翰霍普金斯大学, 丹麦放射学人工智能测试中心, 哥本哈根大学健康与医学科学学院, 哥本哈根大学医院, 丹麦大学医院, 哥本哈根大学临床医学系
Published: 2025-06-17 19:48:05
License: 暂无描述

arXiv2025-06-17 更新2025-06-22 收录

下载链接：

https://huggingface.co/datasets/FOMO25/FOMO-MRI

下载链接

链接失效反馈

官方服务：

资源简介：

FOMO60K是一个大规模的异构脑磁共振成像数据集，包含来自13,900个会话和11,187个受试者的60,529个脑MRI扫描。数据集由16个公开可用的数据源汇总而成，包括临床和研究级图像、多种MRI序列，以及广泛的解剖和病理变异性。为了保留原始图像特征并降低新用户的入门门槛，仅进行了最小预处理。同时提供了用于自监督预训练和微调的伴随代码。FOMO60K旨在支持大规模医疗影像中自监督学习方法的发展和基准测试。

FOMO60K is a large-scale heterogeneous brain magnetic resonance imaging (MRI) dataset. It comprises 60,529 brain MRI scans from 13,900 imaging sessions and 11,187 distinct subjects. The dataset is compiled from 16 publicly available data sources, including clinical and research-grade images, diverse MRI sequences, and a wide range of anatomical and pathological variabilities. To preserve original image characteristics and lower the entry barrier for new users, only minimal preprocessing has been applied. Accompanying code for self-supervised pre-training and fine-tuning is also provided. FOMO60K aims to support the development and benchmarking of self-supervised learning methods in large-scale medical imaging.

提供机构：

丹麦哥本哈根大学计算机科学系, 先锋人工智能中心, 哥本哈根生物与精确精神病学研究中心, 美国Athinoula A. Martinos生物医学成像中心, 美国马萨诸塞总医院, 哈佛医学院, 美国麻省理工学院, 伦敦大学学院Hawkes研究所, 约翰霍普金斯大学, 丹麦放射学人工智能测试中心, 哥本哈根大学健康与医学科学学院, 哥本哈根大学医院, 丹麦大学医院, 哥本哈根大学临床医学系

创建时间：

2025-06-17

原始信息汇总

FOMO-60K: Brain MRI Dataset 概述

基本信息

许可证: fomodataset (具体条款见Data Usage Agreement)
标签: brain, mri, ssl, foundation_model, 3d, image
数据集名称: fomo-60k
规模: 10K<n<100K
任务类别: image-feature-extraction, zero-shot-classification

数据集描述

FOMO-60K 是一个大规模脑部 MRI 扫描数据集，包含临床和研究级扫描。数据集涵盖多种序列，包括：

T1, MPRAGE, T2, T2*, FLAIR, SWI, T1c, PD, DWI, ADC 等。

数据集统计

受试者数量: 11,187
会话数量: 13,900
扫描数量: 60,529

数据格式

所有数据以 NIfTI 文件格式提供，经过标准化和预处理（包括去颅骨、RAS 重定向、共配准）。数据结构如下：

-- fomo-60k |-- sub_01 |-- ses_01 |-- t1.nii.gz

同一序列多次扫描命名为 sequence_x.nii.gz。
序列信息不可用时命名为 scan_x.nii.gz。

数据来源

数据集收集自以下公开来源：OASIS, BraTS, MSD, IXI, MGH Wild, NKI, SOOP, NIMH, DLBS, IDEAS, ARC, MBSR, UCLA, QTAB, AOMIC ID1000。

使用条款

使用本数据集需遵守 Data Usage Agreement 和 Citation Policy。

搜集汇总

数据集介绍

构建方式

FOMO60K数据集通过整合16个公开可用的神经影像数据集构建而成，涵盖了60,529例脑部磁共振成像（MRI）扫描，涉及11,187名受试者和13,900次扫描会话。数据采集过程中，研究人员采用了多样化的MRI序列，包括T1加权、T2加权、FLAIR和扩散加权成像等，以覆盖广泛的解剖和病理变异范围。预处理步骤包括图像重新定向至RAS坐标系、仿射配准以及颅骨剥离，旨在保留原始图像特征的同时提升数据的可用性。

特点

FOMO60K数据集以其规模庞大和高度异质性著称，不仅包含临床和研究级图像，还涵盖了多种MRI序列和广泛的病理变异，如脑部大范围异常。数据集的设计特别注重保留原始图像的多样性，包括图像质量、模态和病理特征的差异，从而更接近真实世界的群体数据。此外，数据集的公开可用性和标准化存储格式（NIfTI）进一步降低了使用门槛。

使用方法

FOMO60K数据集可直接用于自监督学习预训练，无需额外预处理。数据集按标准化目录结构组织，每个受试者和会话均有唯一标识符，扫描按序列类型命名。用户可通过提供的预处理脚本确保数据的一致性和可重复性。为尊重原始数据贡献者，使用该数据集时需引用相关源数据集论文。此外，配套的自监督预训练和微调代码进一步支持方法开发和基准测试。

背景与挑战

背景概述

FOMO60K数据集由哥本哈根大学等机构的研究团队于2025年发布，旨在推动医学影像领域自监督学习的发展。该数据集整合了16个公开可用的脑部磁共振成像（MRI）数据源，包含60,529次扫描、13,900个扫描会话和11,187名受试者，覆盖了临床和研究级图像、多种MRI序列以及广泛的解剖和病理变异。FOMO60K的创建填补了神经影像领域缺乏大规模多样化公共数据集的空白，为自监督学习方法的开发和基准测试提供了重要资源。数据集的设计保留了原始图像特征，仅进行最小限度的预处理，同时提供了自监督预训练和微调的配套代码，显著降低了该领域的研究门槛。

当前挑战

FOMO60K数据集面临的挑战主要体现在两个方面：领域问题方面，脑部MRI影像的自监督学习需要解决图像质量不均、序列多样性和病理复杂性带来的特征提取难题，特别是如何处理包含大型脑部异常的扫描数据；构建过程方面，数据集整合了来自不同来源的异构数据，需协调各数据源的采集协议差异、隐私保护要求（如去标识化处理）以及多模态影像（如T1、T2、FLAIR、DWI等）的标准化问题。此外，为保持数据真实性而实施的最小预处理策略，也增加了后续算法开发中对原始影像噪声和伪影的鲁棒性要求。

常用场景

经典使用场景

在医学影像分析领域，FOMO60K数据集因其大规模和异质性成为自监督学习研究的理想选择。该数据集整合了来自16个公开来源的60,529例脑部MRI扫描，涵盖多种MRI序列和广泛的病理变异，为研究人员提供了一个接近真实世界数据的基准平台。其经典使用场景包括自监督预训练模型的开发与评估，特别是在处理不同成像协议和病理多样性时展现出显著优势。

实际应用

该数据集在临床AI模型开发中具有重要实践价值。其异构特性能够提升模型在真实医疗环境中的泛化能力，例如辅助诊断脑肿瘤、阿尔茨海默病等神经系统疾病。研究人员可利用包含大范围病理特征的扫描数据，开发鲁棒的自动分割算法；医疗机构则可基于预训练模型进行迁移学习，减少对标注数据的依赖。数据集配套提供的预处理和微调代码进一步降低了医疗AI应用的工程门槛。

衍生相关工作

FOMO60K已催生多项医学影像自监督学习的创新研究。基于该数据集开展的FOMO25挑战赛（MICCAI 2025）系统评估了跨模态表征学习、病理敏感特征提取等前沿方法。相关衍生工作包括改进的3D卷积神经网络架构、针对异构数据的对比学习策略，以及脑部异常检测的无监督算法。这些成果通过数据集的标准化评估协议形成可比性结论，显著加速了医学影像分析领域的技术迭代。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集