five

MAMA-MIA

收藏
arXiv2025-09-30 收录
下载链接:
https://doi.org/10.7303/syn60868042
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为MAMA-MIA,包含了1506个来自四个公共数据集的多中心动态对比增强磁共振成像案例,这些案例均由专家对原发性肿瘤和非肿块增强区域进行了分割。这些公共数据集来源于癌症成像档案库(TCIA)。此外,该数据集还包括了49个统一的人口统计学和临床变量,nnUNet模型的预训练权重,以及来自专家评估的自动分割质量评分。规模上,该数据集共有1506个案例,其任务集中在乳腺癌诊断中的图像分割和分类。

This dataset is named MAMA-MIA. It contains 1506 multi-center dynamic contrast-enhanced magnetic resonance imaging (DCE-MRI) cases from four public datasets sourced from The Cancer Imaging Archive (TCIA). All these cases have been manually segmented by experts for primary tumors and non-mass enhancement regions. Additionally, this dataset includes 49 standardized demographic and clinical variables, pre-trained weights of the nnUNet model, and automatic segmentation quality scores evaluated by experts. The core tasks of this dataset focus on image segmentation and classification for breast cancer diagnosis.
提供机构:
Synapse
搜集汇总
数据集介绍
main_image_url
构建方式
在乳腺癌磁共振成像研究领域,高质量专家分割数据的稀缺长期制约着人工智能模型的开发与验证。MAMA-MIA数据集的构建始于从癌症影像档案馆(TCIA)中筛选四个公开队列的预处理动态对比增强磁共振成像(DCE-MRI)病例,严格依据患者接受新辅助化疗且具备治疗反应或生存状态信息的标准,最终汇集了1506例有效数据。为高效生成金标准标注,研究团队首先利用私有专家分割数据训练了一个nnUNet深度学习模型,对全部病例进行自动初步分割,显著降低了人工标注的负担。随后,来自九家机构的十六位平均拥有九年经验的乳腺癌专家,借助Mango查看器对这些自动分割结果进行了细致的检查与手动修正,确保了分割边界的精确性。此外,两位放射科医师还对自动分割结果进行了系统的视觉质量评估,为后续质量控制研究提供了宝贵基础。整个数据集在图像取向、命名规范和文件夹结构上均实现了标准化与统一。
特点
MAMA-MIA数据集的核心特征在于其规模性与权威性,它提供了迄今为止最大的、包含专家分割的乳腺癌DCE-MRI数据集合。数据集涵盖了1506个病例,不仅包含原发肿瘤的精确分割,还包含了更具挑战性的非肿块强化区域的分割,这为研究肿瘤异质性提供了独特资源。其数据来源于多中心、多扫描仪制造商,涵盖了轴向与矢状面采集、不同磁场强度及切片参数,呈现出高度的临床与技术异质性,非常适合用于开发具有强泛化能力的算法。数据集附带了49项经过协调统一的人口统计学与临床变量,包括肿瘤亚型、病理完全缓解状态及生存信息,实现了影像与临床数据的深度关联。尤为重要的是,数据集额外提供了基于全部专家分割训练的nnUNet模型权重,为后续研究设立了可靠的性能基准。
使用方法
该数据集旨在为乳腺癌影像分析研究提供一站式基准平台。研究者可通过其Synapse存储库获取完整的DCE-MRI图像、专家分割掩膜、自动分割结果、临床数据表格以及预训练模型权重。数据集采用即插即用的文件夹结构设计,便于直接用于模型训练与测试。其主要应用方向包括:利用大规模专家分割数据开发与评估自动肿瘤分割模型;结合丰富的临床结局信息,构建治疗反应与生存预测的机器学习模型;基于专家对自动分割的质量评分,开展分割算法的质量控制研究。此外,其多中心、多参数的成像特点使其成为图像标准化、域适应及生成模型训练的理想资源。提供的预训练nnUNet权重既可服务于直接推理,也可作为迁移学习的起点,以加速针对特定任务的模型微调过程。
背景与挑战
背景概述
在乳腺癌精准诊疗领域,动态对比增强磁共振成像(DCE-MRI)凭借其卓越的软组织分辨率和功能成像能力,已成为术前分期与疗效评估的关键工具。然而,高质量专家分割标注的匮乏长期制约着影像组学与人工智能模型的研发进程。为应对这一挑战,由巴塞罗那大学人工智能医学实验室(BCN-AIM)牵头,联合全球十六家顶尖医疗机构,于2024年正式发布了MAMA-MIA数据集。该数据集整合了来自癌症影像档案馆(TCIA)四大公开队列的1506例多中心DCE-MRI影像,并创新性地采用深度学习预分割与专家协同校正的双阶段标注范式,系统提供了原发性肿瘤与非肿块强化区域的精细分割标注。作为目前规模最大的乳腺癌MRI专家分割基准数据集,MAMA-MIA不仅囊括了49项标准化临床变量与影像参数,更通过预训练的nnUNet模型权重为算法开发提供了高起点,显著推动了乳腺癌影像智能分析领域的标准化与可复现性研究。
当前挑战
MAMA-MIA数据集致力于攻克乳腺癌DCE-MRI影像分析中的核心难题:一是解决肿瘤精准分割的算法瓶颈,由于乳腺癌病灶形态的高度异质性(如浸润性生长、非肿块强化等),传统分割模型在边界模糊区域常出现欠分割或过分割现象;二是应对多中心影像数据的域偏移挑战,不同扫描设备、磁场强度与采集协议导致的影像异质性严重制约模型的泛化能力。在构建过程中,研究团队面临三重挑战:首先,原始数据分散于四大独立队列,需完成影像坐标系统一、临床变量标准化等复杂的数据融合工作;其次,三维肿瘤手动标注耗时极长,团队通过预训练分割模型生成初始标注,再由平均具备9年经验的专家团队校正,但此流程仍可能引入标注者间差异与自动分割偏差;最后,为保持临床一致性,在多灶性病例中仅标注原发病灶,这虽提升了数据实用性,却可能限制模型对多病灶场景的识别能力。
常用场景
经典使用场景
在乳腺癌动态对比增强磁共振成像(DCE-MRI)研究领域,MAMA-MIA数据集为深度学习模型提供了大规模、多中心的标准化基准。该数据集最经典的使用场景是作为训练和验证自动肿瘤分割算法的黄金标准资源。研究者可利用其1506例带有专家标注的DCE-MRI影像,开发能够精准识别原发性肿瘤和非肿块强化区域的分割模型,显著提升乳腺病灶自动勾画的准确性与效率。
衍生相关工作
基于MAMA-MIA数据集,已催生出多项经典研究方向。其提供的预训练nnUNet模型权重成为后续分割研究的重要基线。数据集本身的结构设计促进了与心脏成像M&Ms、脑成像BRATS类似的跨领域基准测试范式。同时,它也为图像合成、领域泛化、基础模型(如MedSAM)在乳腺MRI任务上的微调,以及分割质量自动控制等新兴研究提供了宝贵的实验平台和驱动力量。
数据集最近研究
最新研究方向
在乳腺癌动态对比增强磁共振成像领域,MAMA-MIA数据集正推动多项前沿研究。其核心价值在于提供了大规模、多中心、经专家校正的肿瘤分割标注,这直接促进了基于深度学习的自动分割模型开发与基准测试。当前研究热点聚焦于利用该数据集训练和微调基础模型(如MedSAM),以提升三维医学影像分割的泛化能力。同时,数据集整合的丰富临床变量(如病理完全缓解与生存状态)为治疗反应预测与生存分析模型提供了关键支撑。在影像合成方向,生成对抗网络正被探索用于数据增强与隐私保护,以优化算法并模拟治疗响应。此外,数据集中多样的采集参数(如磁场强度、扫描设备)为域泛化与图像标准化技术的研究创造了条件,旨在提升模型在不同临床环境中的鲁棒性。这些进展共同指向更精准、可解释的AI驱动乳腺癌诊断与预后评估体系。
相关研究论文
  • 1
    MAMA-MIA: A Large-Scale Multi-Center Breast Cancer DCE-MRI Benchmark Dataset with Expert Segmentations巴塞罗那人工智能医学实验室(BCN-AIM) · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作