Benchmark dataset for explanation performance in MR image classification

Name: Benchmark dataset for explanation performance in MR image classification
Creator: Technische Universität Berlin
Published: 2023-06-21 17:53:37
License: 暂无描述

arXiv2023-06-21 更新2024-07-30 收录

下载链接：

https://github.com/Marta54/Pretrain_XAI_gt

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集名为'Benchmark dataset for explanation performance in MR image classification'，由Technische Universität Berlin的研究团队创建。数据集包含41,562张MRI切片，这些切片来自Human Connectome Project，并人工添加了病变以模拟临床相关的白质高信号。数据集旨在量化解释性能，特别是在MRI图像分类任务中，通过预训练模型来评估不同解释方法的效果。该数据集的应用领域包括医学图像分析，特别是用于诊断脑部病变，旨在解决如何通过预训练提高模型解释性能的问题。

The dataset is titled 'Benchmark dataset for explanation performance in MR image classification' and was developed by the research team at Technische Universität Berlin. It comprises 41,562 MRI slices sourced from the Human Connectome Project, with artificially introduced lesions to simulate clinically relevant white matter hyperintensities. This dataset is designed to quantify explanation performance, specifically by evaluating the efficacy of different explanation methods using pre-trained models in MRI image classification tasks. Its application domains cover medical image analysis, particularly for brain lesion diagnosis, and it aims to address the problem of how to enhance model explanation performance through pre-training.

提供机构：

Technische Universität Berlin

创建时间：

2023-06-21

原始信息汇总

预训练对MR图像分类解释性能影响的基准数据集

数据集描述

该项目通过在来自HCP项目的MRI切片背景上创建随机病变来生成数据。目的是研究应用于预训练VGG模型的XAI方法的正确性，并理解预训练对解释的影响。

模型预训练

两个VGG模型分别使用两个不同的语料库进行预训练：

ImageNet数据集
MRI数据集（性别分类：男性和女性）

模型微调

VGG模型随后进行了不同程度的微调，对应于不同数量的微调层和其他保持不变（冻结）的层。根据以下结构，获得了5个不同程度的微调：

VGG架构

XAI方法

使用的XAI方法来自Captum库，包括：

Integrated Gradients
GradientSHAP
DeepLift
Saliency
InputXGradient
Guided Backpropagation
Deconvolution
LRP

数据集内容

Finetuning_on_2500_images.ipynb: 用于生成数据（2500张图像）和训练具有不同参数的模型的Jupyter笔记本。
Boxplot_incorrect_classified.ipynb: 用于从saves文件夹中获取错误分类箱形图的Jupyter笔记本。
Examples Heatmaps.ipynb: 用于从saves文件夹中获取错误分类热图的Jupyter笔记本。
classification_metrics.ipynb: 用于获取每个模型的AUROC、AUPRC、准确性、敏感性和特异性的Jupyter笔记本。
explanation_metrics.ipynb: 用于获取错误分类的TP、TN、FP和FN的Jupyter笔记本。
explanation_metrics2.ipynb: 用于获取正确分类图像的TPR（和TNR）箱形图的Jupyter笔记本。
find_intersections.ipynb: 用于获取正确分类的TP、TN、FP和FN的Jupyter笔记本。

包版本

torchvision: 0.12.0+cu102
nibabel: 3.2.2
pandas: 1.3.4
numpy: 1.22.4
matplotlib: 3.4.3
scipy: 1.7.1
skimage: 0.18.3
ot: 0.8.2
torch: 1.11.0+cu102
torchmetrics: 0.11.4
PIL: 9.1.1

搜集汇总

数据集介绍

构建方式

在医学影像分析领域，可解释人工智能方法的性能评估亟需具备明确真实解释的基准数据集。为此，该数据集构建于真实脑部磁共振成像背景之上，通过系统化的合成病灶叠加流程，创造了一个可控且贴近临床现实的分类任务。具体而言，研究团队从人类连接组计划中选取了1007名健康成年人的T1加权轴向MRI切片作为背景图像。在此基础上，采用算法生成了规则与不规则两类人工病灶，其形状通过高斯滤波、Otsu二值化以及形态学操作进行精细控制，并以随机方式叠加于脑部区域内。每个切片仅包含单一类型的三至五个病灶，从而形成了一个平衡的二元分类问题。同时，为每张合成图像生成了对应的病灶位置掩膜，作为解释性能评估的客观真实依据。

特点

该数据集的核心特征在于其精心设计的合成性质与完备的真实解释标注，为可解释人工智能研究提供了前所未有的量化评估基础。数据集模拟了临床相关的白质高信号病灶，在真实脑部MRI背景上叠加了形态与紧凑度可控的人工病变，确保了分类任务既具有现实意义，又完全知晓决定类别的关键特征位置。其提供的病灶位置掩膜构成了解释方法的客观地面真值，使得不同XAI方法输出的重要性热图能够通过精确度等指标进行直接量化比较。此外，数据集包含了基于不同预训练策略（域内MRI性别分类与域外ImageNet分类）的模型，并提供了不同程度的微调版本，便于系统研究预训练对模型可解释性的影响。

使用方法

该数据集主要服务于可解释人工智能方法在医学影像分类任务中的性能基准测试与研究。使用者首先利用提供的合成MRI图像及其类别标签（规则或不规则病灶）训练或微调卷积神经网络模型。随后，应用各种XAI方法（如积分梯度、LRP、Saliency等）对训练好的模型在测试集上的预测生成解释热图。关键步骤在于，将XAI方法生成的热图与数据集提供的真实病灶掩膜进行对比分析。通过计算热图中最显著的前n个像素（n等于真实掩膜中的病灶像素数）与真实掩膜区域的重合度（精确度），即可量化该解释方法的性能。数据集支持探究预训练数据源、微调程度与模型分类性能对解释质量的影响，为开发更可靠的可解释性工具提供了实证基础。

背景与挑战

背景概述

在医学影像分析领域，卷积神经网络（CNN）凭借其卓越的性能已成为主流工具，尤其在数据稀缺的临床场景中，迁移学习技术被广泛采用以提升模型表现。然而，这些复杂模型通常缺乏可解释性，难以揭示其决策机制，这在高风险的医疗应用中构成了重大障碍。为应对这一挑战，可解释人工智能（XAI）领域应运而生，旨在提供模型预测的事后解释。由德国物理技术联邦研究院（PTB）和柏林工业大学等机构的研究团队于近年创建的磁共振图像分类解释性能基准数据集，正是为了填补XAI方法在医学影像领域缺乏定量评估标准的空白。该数据集以人类连接组计划（HCP）的健康脑部MRI切片为背景，叠加人工模拟的白质高信号病灶，构建了一个具有明确解释真值的分类任务，为核心研究问题——量化评估不同XAI方法在迁移学习场景下的解释性能——提供了实证基础，对推动可解释AI在医疗领域的可靠应用具有重要影响力。

当前挑战

该数据集致力于解决医学影像分类中模型可解释性评估的核心挑战。具体而言，其旨在为XAI方法在磁共振图像分类任务上的解释性能提供一个客观、定量的基准，从而克服当前XAI领域因缺乏公认的解释定义和真值数据而难以进行实证验证的困境。在数据集构建过程中，研究团队面临多重技术挑战：首先，需要生成既符合临床病理特征（如模拟白质高信号）又具有精确空间真值的人工病灶，以确保解释评估的可靠性；其次，在利用真实HCP背景图像时，需处理数据许可限制，并计划迁移至更具开放性的IXI数据集；再者，合成数据需平衡任务难度，通过控制病灶对比度（信噪比）来模拟从易到难的分类场景，同时避免背景中的抑制变量对XAI方法产生误导。这些挑战的应对，体现了在高度受控环境下构建具有现实意义的医学影像基准数据的复杂性。

常用场景

经典使用场景

在医学影像分析领域，可解释人工智能（XAI）方法的性能评估长期缺乏标准化的基准测试体系。该数据集通过构建具有已知病变位置的合成磁共振图像，为XAI方法在脑部MRI分类任务中的解释性能提供了量化评估框架。研究者利用该数据集，能够系统比较不同XAI方法在识别人工病变时的精确度，从而客观衡量各方法在模拟临床场景下的解释可靠性。

衍生相关工作

该数据集推动了可解释性基准测试方法学的发展，催生了多项针对医学影像XAI验证的创新研究。例如，后续研究借鉴其合成数据构建范式，开发了针对肺部CT结节检测的解释性能评估框架；另有工作扩展了其评估指标，引入空间重叠度与临床相关性复合评分体系。这些衍生工作共同促进了医疗AI从“黑箱”到“透明决策”的范式转变。

数据集最近研究