SpurBreast

Name: SpurBreast
Creator: 比利时根特大学
Published: 2025-10-02 23:16:20
License: 暂无描述

arXiv2025-10-02 更新2025-11-20 收录

下载链接：

https://zenodo.org/records/17128791

下载链接

链接失效反馈

官方服务：

资源简介：

SpurBreast是一个精心策划的乳腺MRI数据集，旨在研究现实世界中虚假相关性的影响。该数据集由真实世界的患者数据组成，故意包含了虚假相关性，以便评估其对模型性能的影响。通过分析超过100个涉及患者、设备和成像协议的特征，我们确定了两个主要的虚假信号：磁场强度（影响整个图像的全局特征）和图像方向（影响空间对齐的局部特征）。通过受控的数据集分割，我们证明DNN可以利用这些非临床信号，在验证集上实现高准确率，但在无偏见的测试数据上却无法泛化。

提供机构：

比利时根特大学

创建时间：

2025-10-02

搜集汇总

数据集介绍

构建方式

在医学影像分析领域，SpurBreast数据集通过精心设计的构建流程，系统性地植入了真实世界中的伪相关信号。该数据集基于DUKE乳腺癌数据库的900余例患者三维MRI扫描，采用患者级别的分层抽样策略，在训练集和验证集中刻意建立特定特征与肿瘤标签的虚假关联。例如通过将高加索人群的肿瘤阳性图像与亚洲人群的肿瘤阴性图像进行配对，构建基于种族的伪相关数据集。为确保数据质量，研究团队在切片标注时设置了肿瘤区域与正常组织间的缓冲带，并针对100余项临床特征进行数据平衡性评估，最终筛选出磁场强度和图像朝向两个最具代表性的伪相关特征。

特点

该数据集的核心特征在于其独特的双轨设计架构。一方面提供包含磁场强度与图像朝向伪相关的实验数据集，其中1.5T与3T扫描设备的全局特征差异以及垂直翻转的局部空间特征被刻意强化为模型可学习的伪信号。另一方面配备无偏见的基准数据集，涵盖低中高三种数据规模配置。这种设计使研究人员能精确量化伪相关对模型泛化能力的影响，实验数据表明模型在伪相关数据集上可获得接近完美的验证准确率，但在无偏测试集上性能骤降至随机水平，深刻揭示了深度学习模型对非临床特征的过度依赖现象。

使用方法

该数据集为医学影像可靠性研究提供了标准化评估框架。研究人员可通过对比模型在基准数据集与伪相关数据集上的性能差异，系统分析模型对临床特征与伪相关特征的学习偏好。具体操作时，建议首先在无偏基准集上建立模型性能基线，随后在包含磁场强度或图像朝向伪相关的实验集上进行训练验证，通过观察模型在独立测试集上的泛化性能下降程度来评估其鲁棒性。数据集提供的患者级数据划分方案和丰富的元数据支持，使得研究者能够深入探究偏差产生机制，并开发去偏差的算法策略。

背景与挑战

背景概述

在医学影像分析领域，深度神经网络虽取得显著进展，但其在真实临床环境中的部署常受伪相关性问题制约。SpurBreast数据集由根特大学研究团队于2025年创建，旨在系统研究乳腺MRI分类中非临床特征与诊断标签之间的虚假关联。该数据集基于杜克大学乳腺癌MRI数据库构建，涵盖900余例患者的三维扫描数据，通过精心设计的患者分层策略，首次实现了对磁场强度、图像方位等伪相关信号的受控研究。该资源为开发具有临床泛化能力的AI模型提供了关键实验基础，推动了医学影像可信人工智能研究的发展。

当前挑战

该数据集致力于解决医学影像分类中模型过度依赖非临床特征的共性难题，具体体现为磁场强度与图像方位等伪相关信号导致的模型泛化失效。在构建过程中面临三重挑战：原始数据中存在百余种特征分布不平衡现象，如人口统计学特征与设备参数的显著偏斜；医疗数据合规要求导致特征标注完整性不足，部分关键特征缺失率较高；此外还需在保持临床真实性的前提下，通过患者级分层实现伪相关信号的精确注入与量化评估。

常用场景

经典使用场景

在医学影像分析领域，SpurBreast数据集被广泛应用于研究深度神经网络在乳腺癌MRI分类中的伪相关性现象。该数据集通过精心设计的训练集与验证集划分，使模型暴露于磁共振场强和图像方向等非临床特征的伪相关性中，从而评估模型对真实医学特征的依赖程度。研究人员利用这一特性系统探究模型在存在偏差数据下的学习行为，为开发鲁棒性更强的诊断算法提供了实验基础。

衍生相关工作

基于SpurBreast数据集的研究已催生多项关于医疗影像模型鲁棒性的创新工作。学者们利用其结构化偏差设计开发了对抗训练框架，通过显式约束模型对伪相关特征的敏感性提升泛化能力。该数据集还促进了医疗领域公平性算法的演进，衍生出针对设备差异与人口统计学偏差的修正方法，为构建无偏医疗人工智能系统提供了理论支撑与实践范式。

数据集最近研究