MedMNIST v2

Name: MedMNIST v2
Creator: 上海交通大学
Published: 2022-09-25 14:07:53
License: 暂无描述

arXiv2022-09-25 更新2024-06-21 收录

下载链接：

https://medmnist.com/

下载链接

链接失效反馈

官方服务：

资源简介：

MedMNIST v2是一个大规模的类似MNIST的数据集集合，包含12个2D和6个3D的生物医学图像数据集。所有图像均预处理为28×28（2D）或28×28×28（3D）的标准化格式，适用于多种分类任务，如二分类、多分类、多标签和序数回归。数据集涵盖了生物医学图像的主要数据模式，如X射线、OCT、超声、CT和电子显微镜等。总共有708,069张2D图像和9,998张3D图像，适用于生物医学图像分析、计算机视觉和机器学习等领域的研究和教育用途。数据集设计旨在通过轻量级图像进行分类任务，无需用户具备背景知识。

MedMNIST v2 is a large-scale MNIST-like collection of biomedical image datasets, consisting of 12 2D and 6 3D biomedical image datasets. All images are preprocessed into standardized formats of 28×28 (for 2D) or 28×28×28 (for 3D), which are applicable to multiple classification tasks including binary classification, multi-class classification, multi-label classification and ordinal regression. The datasets cover major data modalities of biomedical images, such as X-ray, OCT, ultrasound, CT and electron microscopy. There are a total of 708,069 2D images and 9,998 3D images, and it is suitable for research and educational purposes in fields like biomedical image analysis, computer vision and machine learning. This dataset is designed to facilitate classification tasks using lightweight images, without requiring users to have professional background knowledge.

提供机构：

上海交通大学

创建时间：

2021-10-28

搜集汇总

数据集介绍

构建方式

在生物医学图像分析领域，数据模态多样且任务复杂，MedMNIST v2的构建旨在提供一个标准化、轻量化的基准数据集。该数据集从多个公开来源精心挑选了12个二维和6个三维生物医学图像子集，涵盖X射线、光学相干断层扫描、超声、CT等多种模态。所有图像均通过三次样条插值统一预处理为28×28（二维）或28×28×28（三维）的尺寸，并保留了原始分类标签。数据分割遵循官方划分或按患者级别随机分配，确保训练、验证和测试集之间无数据泄露，最终形成总计708,069张二维图像和9,998个三维图像的集合。

使用方法

MedMNIST v2以NumPy npz格式公开提供，每个子集包含训练、验证和测试集的图像与标签数组。研究人员可通过官方代码库加载数据，并利用提供的基准方法（如ResNet、AutoML工具）进行模型训练与评估。数据集支持使用AUC和准确率作为标准指标，鼓励用户在全部二维或三维子集上计算平均性能以综合衡量算法表现。需要注意的是，该数据集仅用于研究或教育目的，不适用于临床诊断，因为图像的低分辨率可能无法充分表征疾病病理特征。

背景与挑战

背景概述

在人工智能与医疗健康交叉领域，深度学习驱动的生物医学图像分析日益凸显其重要性。MedMNIST v2数据集由上海交通大学等机构的研究团队于2022年正式推出，旨在构建一个大规模、标准化的生物医学图像分类基准。该数据集汇集了12个二维和6个三维子数据集，涵盖X射线、光学相干断层扫描、超声等多种模态，总计包含超过70万张二维图像和近万个体素数据。其核心研究聚焦于评估机器学习模型在多样化生物医学图像任务中的泛化性能，通过统一预处理为28×28（或28×28×28）的轻量级格式，降低了使用门槛，推动了跨学科研究与教育应用。

当前挑战

MedMNIST v2所应对的领域挑战在于生物医学图像分类中数据模态、规模与任务类型的极端多样性，这要求模型具备强大的跨域适应能力。具体而言，数据集需解决二进制分类、多类别分类、多标签分类及序数回归等多种任务，同时平衡不同成像分辨率与样本量的差异。在构建过程中，挑战主要体现在数据标准化与集成方面：需从异构的原始数据源中提取并统一图像尺寸与标注格式，确保患者级数据分割以避免信息泄漏，并在遵守知识共享许可协议的前提下整合多源数据。此外，将三维医学图像压缩为低分辨率体素时，需在保留关键特征与计算效率之间取得微妙平衡。

常用场景

经典使用场景

在生物医学图像分析领域，MedMNIST v2数据集常被用作轻量级基准测试平台，用于评估和比较各类机器学习模型在标准化二维与三维图像分类任务上的泛化性能。其经典使用场景涵盖从简单的卷积神经网络到复杂的自动化机器学习工具的系统性评测，研究者通过在该数据集上训练模型，能够快速验证算法在不同数据模态、任务类型和规模下的适应能力。

解决学术问题

该数据集有效解决了生物医学图像分析中模型泛化能力评估的难题。通过整合多种成像模态、不同数据规模和分类任务，MedMNIST v2为学术界提供了标准化的评测环境，使得研究者能够剥离复杂的工程化因素，专注于机器学习核心算法的比较与改进。其意义在于推动了跨模态学习、小样本学习以及三维视觉算法的发展，为医疗人工智能的可信性研究奠定了数据基础。

实际应用

在实际应用中，MedMNIST v2主要服务于教育演示与算法原型开发。由于其图像尺寸统一且无需专业医学背景即可使用，该数据集成为高校课程和培训项目中介绍医疗AI技术的理想教具。同时，工业界研发团队可利用其快速验证新算法框架在多样化医疗图像任务上的可行性，为后续在真实高分辨率数据上的部署提供前期参考。

数据集最近研究