BreastDCEDL
收藏arXiv2025-06-14 更新2025-11-28 收录
下载链接:
https://github.com/naomifridman/BreastDCEDL
下载链接
链接失效反馈官方服务:
资源简介:
BreastDCEDL是一个综合性的深度学习就绪数据集,由来自I-SPY1、I-SPY2和Duke队列的2070名乳腺癌患者的治疗前3D动态对比增强MRI(DCE-MRI)扫描组成,所有数据均来自癌症影像档案。原始DICOM影像数据被严格转换为标准化的3D NIfTI体积,并保留了信号完整性,同时伴有统一的肿瘤标注和协调的临床元数据,包括病理完全缓解(pCR)、激素受体(HR)和HER2状态。该数据集旨在解决缺乏可访问的、公开的、多中心数据集的问题,以促进开发先进的模型,包括需要大量训练数据的最新transformer架构。
BreastDCEDL is a comprehensive deep learning-ready dataset comprising pretreatment 3D dynamic contrast-enhanced MRI (DCE-MRI) scans from 2070 breast cancer patients across the I-SPY1, I-SPY2, and Duke cohorts, with all data sourced from The Cancer Imaging Archive. Raw DICOM image data has been rigorously converted into standardized 3D NIfTI volumes while preserving signal integrity, accompanied by unified tumor annotations and harmonized clinical metadata including pathological complete response (pCR), hormone receptor (HR), and HER2 status. This dataset aims to address the shortage of accessible, public, multi-center datasets, thereby facilitating the development of advanced models including state-of-the-art transformer architectures that require large-scale training data.
提供机构:
Ariel University, Israel; NF Algorithms & AI, Israel
创建时间:
2025-06-14
搜集汇总
数据集介绍

构建方式
在乳腺癌影像分析领域,数据标准化与整合是推动深度学习模型发展的关键前提。BreastDCEDL数据集通过系统化流程构建,其核心在于整合了来自癌症影像档案馆的三个独立临床队列——I-SPY1、I-SPY2和Duke,共计2070名患者的治疗前动态对比增强磁共振成像数据。原始DICOM格式的影像经过精心处理,保留了完整的信号动态范围,被转换为标准化的3D NIfTI体积数据。同时,研究团队统一了各来源的肿瘤分割标注,并将包括病理完全缓解状态、激素受体状态和HER2状态在内的异构临床元数据进行了协调与标准化,最终形成了可直接用于深度学习训练的结构化资源。
特点
该数据集的核心特点在于其规模性与标准化程度,为乳腺癌DCE-MRI分析提供了前所未有的公共资源。其收录的多中心数据涵盖了丰富的临床异质性,包括不同种族、年龄及生物标志物状态的患者群体。数据集完整保留了原始的成像参数与空间分辨率,未施加任何预处理归一化,这为方法学研究提供了灵活性。尤为重要的是,BreastDCEDL提供了预先划分且保持病理完全缓解率平衡的训练、验证与测试数据集分区,确保了模型评估的可重复性与公平性,为不同算法的直接比较建立了可靠基准。
使用方法
BreastDCEDL数据集旨在为开发与验证乳腺癌治疗反应预测模型提供标准化环境。研究人员可直接使用其提供的NIfTI格式影像、对应的肿瘤分割掩模及协调后的临床元数据CSV文件。数据集附带的固定数据分区支持开箱即用的模型训练与测试流程。论文中示范了一种基于视觉Transformer的先进使用方法:将三个对比时相的DCE-MRI切片融合为RGB图像作为模型输入,并结合临床变量进行预测。该工作流代码已公开,为后续研究提供了可复现的模板,鼓励社区在此基础上探索更复杂的端到端架构或融合多模态信息。
背景与挑战
背景概述
乳腺癌作为全球癌症相关死亡的主要原因,其早期检测与治疗反应精准监测成为临床研究的核心议题。2025年,由以色列阿里尔大学与NF Algorithms & AI的研究团队联合构建的BreastDCEDL数据集应运而生,旨在应对动态对比增强磁共振成像(DCE-MRI)在深度学习应用中面临的数据可及性挑战。该数据集整合了来自I-SPY1、I-SPY2及Duke三大临床队列的2070例患者治疗前三维DCE-MRI扫描数据,通过标准化转换保留了原始DICOM信号的完整性,并统一了肿瘤标注与临床元数据。其创建不仅填补了多中心、大规模乳腺DCE-MRI公共数据资源的空白,更为Transformer等先进架构的训练提供了坚实基础,显著推动了乳腺癌影像人工智能研究向标准化、可复现的方向演进。
当前挑战
在乳腺癌治疗反应预测领域,精准评估新辅助化疗后的病理完全缓解(pCR)始终是核心难题,其挑战源于肿瘤异质性、影像特征与生物学行为间的复杂关联,以及不同受体亚型(如HR+/HER2-、三阴性)对治疗反应的差异性。BreastDCEDL在构建过程中亦面临多重技术障碍:原始DICOM数据源自超过22个医疗中心,成像协议、对比剂注射时间及元数据标签存在显著异质性,需系统性地协调与整合;肿瘤标注格式不一(如I-SPY系列的掩码与Duke队列的边界框),须转换为统一的三维二进制空间对齐;临床元数据中激素受体与HER2状态的判定标准因机构阈值差异而需归一化处理,以保障跨队列分析的一致性。这些挑战的克服,为后续大规模深度学习模型开发奠定了可靠的数据基石。
常用场景
经典使用场景
在乳腺癌影像学研究中,动态对比增强磁共振成像(DCE-MRI)凭借其卓越的软组织分辨率和血流动力学信息捕获能力,已成为评估肿瘤血管生成和治疗反应的核心手段。BreastDCEDL数据集通过整合来自I-SPY1、I-SPY2及Duke三大临床队列的2070例患者标准化三维影像,为深度学习模型提供了前所未有的多中心、大规模训练资源。其最经典的应用场景在于构建端到端的病理完全缓解预测模型,研究者可利用该数据集预定义的训练-验证-测试划分,开发基于Transformer等先进架构的算法,从多期相融合的RGB图像中自动提取肿瘤异质性特征,实现对新辅助化疗疗效的精准评估。
解决学术问题
长期以来,乳腺癌DCE-MRI深度学习研究受限于数据规模小、格式不统一及多中心验证缺失等瓶颈。BreastDCEDL通过系统化整合与标准化处理,首次提供了公开可用的、深度学习就绪的大规模数据集,有效解决了模型泛化能力不足、可重复性差等关键学术问题。该数据集不仅支持病理完全缓解预测这一核心临床问题的探索,还通过统一的肿瘤标注与协调的临床元数据(如激素受体状态、HER2状态),促进了分子亚型特异性模型的发展,为个体化治疗决策提供了可靠的影像学生物标志物研究基础。
衍生相关工作
BreastDCEDL的发布催生了多项前沿研究,尤其在Transformer架构的医学影像适配方面产生了显著影响。以该数据集为基础,研究者首次成功将视觉Transformer应用于乳腺癌DCE-MRI分析,开辟了利用全局注意力机制捕捉肿瘤时空动态模式的新范式。相关工作进一步拓展至多模态融合,例如结合T2加权与扩散加权成像序列以提升预测性能;亦有研究借鉴其数据标准化流程,开发了适用于Shifted Window Transformer等改进架构的预处理框架。这些衍生工作不仅验证了数据集在推动算法创新方面的价值,也为后续大规模多中心协作研究提供了可复现的基准与方法论参考。
以上内容由遇见数据集搜集并总结生成



