MedMNIST-C

Name: MedMNIST-C
Creator: 巴伐利亚大学xAILab
Published: 2024-06-25 21:20:39
License: 暂无描述

arXiv2024-06-25 更新2024-06-27 收录

下载链接：

https://github.com/francescodisalvo05/medmnistc-api

下载链接

链接失效反馈

官方服务：

资源简介：

MedMNIST-C是由德国巴伐利亚大学xAILab创建的一个综合性医学图像基准数据集，基于MedMNIST+集合，涵盖12个数据集和9种成像模式。该数据集通过模拟真实世界中的图像损坏和分布变化，设计了特定任务和模式的图像损坏，以全面评估算法的鲁棒性。数据集创建过程中，利用了公开的MedMNIST+数据集，并针对每个数据集设计了特定的损坏类型，以模拟实际应用中的挑战。MedMNIST-C的应用领域广泛，旨在通过提供一个全面的基准，增强医学图像分析中算法的鲁棒性，解决领域泛化和鲁棒性问题。

MedMNIST-C is a comprehensive medical imaging benchmark dataset created by the xAILab at the University of Bavaria, Germany. It is built upon the MedMNIST+ collection, covering 12 datasets and 9 imaging modalities. This dataset simulates real-world image corruptions and distribution shifts, and designs task-specific and modality-specific image corruptions to comprehensively evaluate the robustness of algorithms. During the dataset construction process, the publicly available MedMNIST+ dataset was utilized, and specific corruption types were designed for each dataset to simulate the challenges encountered in real-world applications. With wide-ranging application scenarios, MedMNIST-C aims to provide a comprehensive benchmark to enhance the robustness of algorithms in medical image analysis, addressing issues of domain generalization and robustness.

提供机构：

巴伐利亚大学xAILab

创建时间：

2024-06-25

原始信息汇总

MedMNIST-C 数据集概述

数据集简介

MedMNIST-C 是一个基于 MedMNIST+ 集合的基准数据集，涵盖了 12 个 2D 数据集和 9 种成像模式。该数据集模拟了任务和模式特定的图像损坏，以全面评估现有算法对 现实世界缺陷 和 分布偏移 的鲁棒性。此外，简单易用的人工损坏允许进行高性能、轻量级的 数据增强，以增强模型鲁棒性。

主要组件

medmnistc/corruptions/registry.py: 包含所有损坏及其相关强度超参数的列表。
medmnistc/dataset_manager.py: 负责创建损坏数据集的数据集类。
medmnistc/visualizer.py: 用于可视化和存储定义的损坏的类。
medmnistc/augmentation.py: 基于定义的损坏的数据增强类。
medmnistc/dataset.py: 用于损坏数据集的数据集类。
medmnistc/eval.py: 用于在损坏数据集下进行模型评估的 PyTorch 类。
medmnistc/assets/baseline/*: 用于在损坏数据集下进行模型评估的归一化基准。

基本用法

创建损坏数据集

python from medmnistc.dataset_manager import DatasetManager

medmnist_path = ... # 清洁图像的路径 medmnistc_path = ... # 损坏图像的路径

ds_manager = DatasetManager(medmnist_path=medmnist_path, output_path=output_path) ds_manager.create_dataset(dataset_name="breastmnist") # 创建单个损坏的测试集 ds_manager.create_dataset(dataset_name="all") # 创建所有

数据增强

python from medmnistc.augmentation import AugMedMNISTC from medmnistc.corruptions.registry import CORRUPTIONS_DS import torchvision.transforms as transforms

dataset = "breastmnist" # 选择数据集 train_corruptions = CORRUPTIONS_DS[dataset] # 加载该数据集的设计损坏 images = ... # 加载图像

使用 AugMedMNISTC 进行增强

augment = AugMedMNISTC(train_corruptions) augmented_img = augment(images[0])

集成到 transforms.Compose

aug_compose = transforms.Compose([ AugMedMNISTC(train_corruptions), transforms.ToTensor(), transforms.Normalize(mean=..., std=...) ])

augmented_img = aug_compose(images[0])

许可证

代码采用 Apache-2.0 License。

MedMNIST-C 数据集采用 Creative Commons Attribution 4.0 International (CC BY 4.0) 许可证，除了 DermaMNIST-C 采用 Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0) 许可证。

引用

如果该工作对您有帮助，请考虑引用我们：

@article{disalvo2024medmnist, title={MedMNIST-C: Comprehensive benchmark and improved classifier robustness by simulating realistic image corruptions}, author={Di Salvo, Francesco and Doerrich, Sebastian and Ledig, Christian}, journal={arXiv preprint arXiv:2406.17536}, year={2024} }

搜集汇总

数据集介绍

构建方式

MedMNIST-C数据集的构建方式是通过模拟真实世界的图像腐蚀来评估算法的鲁棒性。该数据集基于MedMNIST+集合，涵盖了12个数据集和9种成像模态。研究人员设计了针对每个数据集和成像模态的特定图像腐蚀，以模拟图像采集和处理过程中可能遇到的常见伪影。这些腐蚀被分为五个类别：数字、噪声、模糊、颜色和特定任务。每个类别都有特定的腐蚀类型，并且都应用于五个不同的严重程度级别。为了评估算法的鲁棒性，研究人员使用了平衡误差和相对平衡误差作为关键指标。此外，他们还提供了一个用于数据增强的腐蚀API，允许用户在训练过程中应用这些腐蚀。

使用方法

使用MedMNIST-C数据集的方法包括两个主要步骤：评估模型鲁棒性和进行数据增强。首先，研究人员使用MedMNIST-C数据集中的腐蚀图像来评估各种深度学习模型的鲁棒性。他们使用了AlexNet、ResNet50、DenseNet121、ViT-B/16和VGG16等模型，并使用了平衡误差和相对平衡误差作为评估指标。其次，他们使用腐蚀API进行数据增强，以提高模型的鲁棒性。他们比较了他们的方法与MixUp、CutMix和RandAugment等通用增强方法的性能，发现他们的方法在所有12个数据集上都取得了最佳的AUC增益。此外，他们还展示了如何通过k-fold交叉验证来确保评估的公平性。

背景与挑战

背景概述

在医疗影像分析领域，深度神经网络（DNNs）的应用已取得显著进展，特别是在放射学、皮肤病学和病理学等领域。然而，传统的神经网络在应对对抗样本和分布偏移方面仍然面临挑战。这些挑战通常由多种因素引起，包括成像设备、后处理技术、患者特征和采集协议等。为了解决这些挑战，德国班贝格大学xAILab的研究人员Francesco Di Salvo、Sebastian Doerrich和Christian Ledig创建了一个名为MedMNIST-C的基准数据集。该数据集基于MedMNIST+集合，覆盖了12个数据集和9种成像模态，旨在模拟特定任务和模态的图像损坏，以全面评估算法在面对现实世界的人工制品和分布偏移时的鲁棒性。此外，该研究还提供了定量证据，表明其简单易用的人工损坏方法可以高度有效地增强模型的鲁棒性。MedMNIST-C的引入和开放源代码库的开发，为医疗影像领域定制化、鲁棒的模型开发提供了重要的资源。

当前挑战

尽管MedMNIST-C数据集为医疗影像分析领域提供了重要的基准和鲁棒性评估框架，但仍存在一些挑战。首先，尽管数据集涵盖了多种成像模态，但不同模态之间的数据分布和特征可能存在显著差异，这给模型的泛化能力提出了更高的要求。其次，由于医疗影像分析的高度专业性和复杂性，模型在面对新的人工制品和分布偏移时的适应性仍然是一个挑战。此外，虽然MedMNIST-C提供了一种简单而有效的方法来增强模型的鲁棒性，但在实际应用中，如何将这些方法与现有的数据增强技术相结合，以进一步提高模型的性能和鲁棒性，仍然是一个需要进一步研究的问题。

常用场景

经典使用场景

MedMNIST-C 数据集是一个基于 MedMNIST+ 收藏的基准数据集，覆盖了 12 个数据集和 9 种成像模式。该数据集通过模拟任务和模式特定的图像损坏来评估现有算法对现实世界伪影和分布偏移的鲁棒性。MedMNIST-C 旨在解决医学影像领域中缺乏一个全面的基准的问题，该基准能够跨越成像模式和应用程序。通过模拟各种严重程度的图像损坏，该数据集为评估和增强医学图像分析模型的鲁棒性提供了一个有价值的工具。

解决学术问题

MedMNIST-C 数据集解决了医学影像领域中缺乏一个全面的基准的问题，该基准能够跨越成像模式和应用程序。该数据集通过模拟各种严重程度的图像损坏来评估现有算法对现实世界伪影和分布偏移的鲁棒性。MedMNIST-C 的创建为医学影像领域提供了一个统一的评估环境，有助于推动模型鲁棒性的研究和发展。此外，MedMNIST-C 还展示了将领域知识嵌入数据增强策略的优势，为增强模型的鲁棒性提供了一种简单而有效的方法。

实际应用

MedMNIST-C 数据集在实际应用场景中具有重要的价值。它可以用于评估和增强医学图像分析模型的鲁棒性，使其能够更好地应对现实世界中的伪影和分布偏移。该数据集可以用于训练和测试医学影像领域的深度学习模型，从而提高诊断的准确性和可靠性。此外，MedMNIST-C 还可以用于开发和应用新的数据增强技术，以进一步提高医学影像分析模型的鲁棒性和性能。

数据集最近研究