BreastDCEDL
收藏arXiv2025-09-30 收录
下载链接:
https://doi.org/10.5281/zenodo.15627233
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一套经过精心筛选的、为深度学习准备的数据集,包含了来自I-SPY1、I-SPY2和Duke队列的2,070名乳腺癌患者的治疗前3D动态对比增强磁共振成像(DCE-MRI)扫描数据。该数据集还包括预定义的基准分割,并且在训练-验证-测试分割中保持了病理完全响应(pCR)率的一致性。数据规模涉及2,070名患者,其任务是预测乳腺癌治疗响应。
This is a carefully curated dataset prepared for deep learning applications, containing pre-treatment 3D dynamic contrast-enhanced magnetic resonance imaging (DCE-MRI) scan data from 2,070 breast cancer patients across the I-SPY1, I-SPY2, and Duke cohorts. It also includes pre-defined benchmark splits, and maintains consistent pathological complete response (pCR) rates across the train-validation-test partitions. The core task of this dataset is to predict breast cancer treatment response.
提供机构:
The Cancer Imaging Archive
搜集汇总
数据集介绍

构建方式
在乳腺癌影像学研究中,动态对比增强磁共振成像(DCE-MRI)为评估治疗反应提供了关键信息,但多中心数据的标准化处理一直是技术瓶颈。BreastDCEDL数据集通过整合来自癌症影像档案馆(TCIA)的I-SPY1、I-SPY2和Duke三大临床队列的原始DICOM数据,构建了一个涵盖2070名患者的深度学习就绪资源。其构建过程涉及从多中心采集的原始DICOM文件中系统提取切片位置和采集时间,并依据时间序列与解剖轴向进行时空重组。数据被转换为保留完整信号动态范围的64位浮点格式,并统一保存为标准化的3D NIfTI体积文件,同时整合了统一的肿瘤分割标注与协调后的临床元数据,包括病理完全缓解状态、激素受体及HER2状态,确保了数据的一致性与可用性。
特点
该数据集的核心特点在于其规模性与标准化程度,它首次汇集了来自多个大型临床试验的DCE-MRI数据,形成了目前同类资源中前所未有的患者规模。所有影像数据均保持了原始的DICOM采集参数与空间分辨率,未施加预处理,为方法学研究提供了原始素材。数据集附带了协调统一的临床注释与肿瘤分割信息,并提供了预先划分的训练、验证与测试集,其划分保持了各子集中病理完全缓解率的平衡,确保了评估的公平性与可重复性。这种设计不仅支持先进的深度学习模型开发,尤其为需要大量数据的Transformer架构提供了训练基础,也为跨机构的比较研究建立了标准化基准。
使用方法
为促进乳腺癌治疗反应预测模型的开发与评估,BreastDCEDL提供了明确的使用框架。研究人员可直接利用其提供的标准化NIfTI格式影像、对应肿瘤标注及临床元数据CSV文件进行模型训练。数据集中预定义的基准划分支持开箱即用的性能评测,确保了不同研究间的可比性。论文中示范了一种基于Vision Transformer的工作流程:将预处理、早期后增强及晚期后增强三个时相的DCE-MRI切片融合为RGB图像作为输入,利用Transformer模型提取特征,并结合临床变量进行预测。相关数据处理代码与预训练模型已公开,用户可遵循此流程复现或拓展研究,也可基于原始数据开发自定义的归一化方法与新颖的深度学习架构。
背景与挑战
背景概述
在乳腺癌精准医疗领域,动态对比增强磁共振成像(DCE-MRI)凭借其卓越的软组织分辨率和血流动力学信息,已成为评估新辅助化疗疗效的关键影像学工具。然而,深度学习模型在该领域的应用长期受限于缺乏大规模、标准化、多中心的数据资源。为此,以色列阿里尔大学与NF Algorithms & AI团队于2025年联合发布了BreastDCEDL数据集,该数据集整合了来自I-SPY1、I-SPY2和Duke三大临床试验队列的2070例患者治疗前DCE-MRI扫描,并提供了病理完全缓解(pCR)、激素受体状态等统一临床注释。通过将原始DICOM数据转换为标准化3D NIfTI格式并保留完整的信号动态范围,该数据集旨在为Transformer等先进架构的训练提供高质量基础,推动乳腺癌治疗反应预测模型的创新与验证。
当前挑战
BreastDCEDL数据集致力于解决乳腺癌治疗反应预测中的核心挑战:如何从高维、多时相的DCE-MRI数据中精准提取与病理完全缓解相关的影像学生物标志物。这一领域问题的复杂性源于肿瘤异质性、增强模式的时空动态变化以及不同分子亚型间的响应差异。在数据集构建过程中,研究团队面临多重技术障碍:原始数据源自超过22个医疗中心,需协调多样化的DICOM标签、文件名格式及采集协议;临床元数据存在异质性,例如激素受体状态的判定标准在不同队列中采用不同阈值(如I-SPY2使用≥1%染色,而I-SPY1采用≥10%),需进行系统化统一;此外,肿瘤标注方式不一致——I-SPY队列提供分割掩模,而Duke数据集仅包含边界框坐标,需转化为对齐的三维二进制掩模以保障数据一致性。
常用场景
经典使用场景
在乳腺癌影像学研究中,动态对比增强磁共振成像(DCE-MRI)因其能够捕捉肿瘤血管生成和血流动力学特征而成为评估新辅助化疗反应的关键工具。BreastDCEDL数据集通过整合来自I-SPY1、I-SPY2和Duke三大临床队列的2070例患者标准化DCE-MRI扫描,为深度学习模型提供了前所未有的多中心、大规模训练资源。其经典使用场景集中于构建端到端的预测模型,利用三维时序影像数据与病理完全缓解(pCR)等临床终点标签,开发能够早期准确评估治疗反应的算法框架。
衍生相关工作
BreastDCEDL的发布催生了一系列基于Transformer架构的乳腺癌影像分析创新。继原论文首次实现Vision Transformer在DCE-MRI上的应用后,后续研究开始探索Swin Transformer等层次化视觉Transformer以更好地捕捉医学影像的局部细节;同时,多模态融合工作尝试将DCE-MRI与T2加权、扩散加权成像相结合,进一步提升预测鲁棒性。此外,数据集的标准化分割方案也促进了跨机构验证研究,为建立可复现的影像生物标志物开发流程提供了重要范例。
数据集最近研究
最新研究方向
在乳腺癌影像学领域,动态对比增强磁共振成像(DCE-MRI)作为评估肿瘤血管生成和监测新辅助化疗反应的关键技术,正经历着人工智能驱动的深刻变革。BreastDCEDL数据集的推出,为这一领域的前沿研究提供了首个大规模、标准化的深度学习就绪资源,其整合了来自I-SPY1、I-SPY2和Duke队列的2070例患者数据,涵盖了多中心、多协议的原始DICOM影像与统一的病理完全缓解(pCR)等临床注释。当前研究热点聚焦于Transformer架构在DCE-MRI时序分析中的创新应用,例如基于Vision Transformer的模型通过RGB融合三时相图像,在HR+/HER2-亚型中实现了pCR预测的卓越性能(AUC 0.94),这标志着传统卷积神经网络向全局上下文建模的范式转移。同时,数据集支持的多模态融合与放射组学特征挖掘,正推动个性化治疗反应预测向更高精度发展,其预设的基准划分也为可重复研究设立了新标准,对加速临床决策支持系统的转化具有深远意义。
相关研究论文
- 1通过Ariel University, Israel; NF Algorithms & AI, Israel · 2025年
以上内容由遇见数据集搜集并总结生成



