albertvillanova/medmnist-v2|生物医学图像数据集|图像分类数据集

hugging_face2023-05-30 更新2024-03-04 收录

生物医学图像

图像分类

下载链接：

https://hf-mirror.com/datasets/albertvillanova/medmnist-v2

下载链接

链接失效反馈

资源简介：

我们介绍了MedMNIST v2，这是一个大规模的MNIST风格的标准化生物医学图像集合，包括12个2D数据集和6个3D数据集。所有图像都被预处理为28 x 28（2D）或28 x 28 x 28（3D）大小，并带有相应的分类标签，因此用户无需背景知识。MedMNIST v2涵盖了生物医学图像中的主要数据模态，旨在对轻量级的2D和3D图像进行分类，具有各种数据规模（从100到100,000）和多样化的任务（二元/多类、序数回归和多标签）。最终的数据集由708,069张2D图像和9,998张3D图像组成，可以支持生物医学图像分析、计算机视觉和机器学习中的众多研究/教育目的。我们在MedMNIST v2上基准测试了几种基线方法，包括2D / 3D神经网络和开源/商业AutoML工具。

提供机构：

albertvillanova

原始信息汇总

数据集概述

数据集名称

名称: MedMNIST v2

数据集属性

语言: 英语 (en)
许可证: Creative Commons Attribution 4.0 International (CC BY 4.0)
多语言性: 单语种
大小: 100K<n<1M
源数据: 原始数据
任务类别: 图像分类
任务ID:
- 多类图像分类
- 多标签图像分类
标签: 医疗

数据集描述

概述: MedMNIST v2 是一个大规模的类似MNIST的生物医学图像集合，包括12个2D数据集和6个3D数据集。所有图像均预处理为28x28（2D）或28x28x28（3D），并附有相应的分类标签，无需用户具备背景知识。覆盖了生物医学图像的主要数据模式，MedMNIST v2 旨在对轻量级的2D和3D图像进行分类，具有不同的数据规模（从100到100,000）和多样化的任务（二分类/多分类、序数回归和多标签）。该数据集总共包含708,069张2D图像和9,998张3D图像，可支持生物医学图像分析、计算机视觉和机器学习中的众多研究/教育目的。

数据集结构

数据实例: 未提供详细信息
数据字段: 未提供详细信息
数据分割: 未提供详细信息

许可证信息

许可证: Creative Commons Attribution 4.0 International (CC BY 4.0)

引用信息

引用:

@article{medmnistv2, title={MedMNIST v2-A large-scale lightweight benchmark for 2D and 3D biomedical image classification}, author={Yang, Jiancheng and Shi, Rui and Wei, Donglai and Liu, Zequan and Zhao, Lin and Ke, Bilian and Pfister, Hanspeter and Ni, Bingbing}, journal={Scientific Data}, volume={10}, number={1}, pages={41}, year={2023}, publisher={Nature Publishing Group UK London} }

@inproceedings{medmnistv1, title={MedMNIST Classification Decathlon: A Lightweight AutoML Benchmark for Medical Image Analysis}, author={Yang, Jiancheng and Shi, Rui and Ni, Bingbing}, booktitle={IEEE 18th International Symposium on Biomedical Imaging (ISBI)}, pages={191--195}, year={2021} }

贡献者

添加者: @albertvillanova

AI搜集汇总

数据集介绍

构建方式

MedMNIST v2数据集的构建基于大规模的生物医学图像，涵盖了12个2D和6个3D数据集。所有图像均经过标准化处理，尺寸统一为28 x 28（2D）或28 x 28 x 28（3D），并附有相应的分类标签，确保用户无需具备专业背景知识。该数据集的构建旨在为生物医学图像分析、计算机视觉和机器学习领域提供一个轻量级的基准，支持多种任务类型，包括二分类、多分类、序数回归和多标签分类。

特点

MedMNIST v2数据集的主要特点在于其标准化和轻量化的设计，适用于多种数据规模和任务类型。数据集包含708,069张2D图像和9,998张3D图像，覆盖了生物医学图像的主要数据模式。此外，该数据集的构建旨在减少用户对背景知识的依赖，使其成为教育和研究领域的理想选择。

使用方法

使用MedMNIST v2数据集时，用户可以将其应用于多种图像分类任务，包括二分类、多分类、序数回归和多标签分类。数据集的结构设计使得用户可以轻松地进行数据分割和模型训练。用户可以通过访问数据集的官方网站或GitHub仓库获取详细的使用指南和代码示例，确保数据集的有效利用。

背景与挑战

背景概述

MedMNIST v2数据集是由上海交通大学的Bingbing Ni等人于2023年创建的，旨在为生物医学图像分析领域提供一个大规模且轻量级的基准。该数据集包含了12个2D和6个3D的生物医学图像数据集，所有图像均被预处理为28x28（2D）或28x28x28（3D）的格式，并附有相应的分类标签，无需背景知识即可使用。MedMNIST v2涵盖了生物医学图像中的主要数据模式，旨在支持轻量级2D和3D图像的分类任务，数据规模从100到100,000不等，任务类型包括二分类、多分类、序数回归和多标签分类。该数据集共包含708,069张2D图像和9,998张3D图像，为生物医学图像分析、计算机视觉和机器学习领域的研究和教育提供了丰富的资源。

当前挑战

MedMNIST v2数据集在构建过程中面临多项挑战。首先，数据集的多样性要求在处理不同类型的生物医学图像时保持一致性和标准化，这需要复杂的预处理技术。其次，数据集的规模和多样性使得分类任务变得复杂，尤其是在处理多标签和多分类问题时，模型的设计和训练需要更高的精度和效率。此外，数据集的轻量级特性要求在保持高性能的同时，尽可能减少计算资源的消耗。最后，数据集的广泛应用潜力也带来了数据隐私和伦理方面的挑战，确保数据的安全性和合规性是使用该数据集时必须考虑的重要问题。

常用场景

经典使用场景

在医学图像分析领域，MedMNIST v2数据集以其大规模和轻量级的特性，成为2D和3D生物医学图像分类的经典基准。该数据集包含12个2D和6个3D的标准化生物医学图像数据集，所有图像均预处理为28x28（2D）或28x28x28（3D）格式，并附有相应的分类标签。这种标准化处理使得用户无需具备专业背景知识即可进行图像分类任务，广泛应用于计算机视觉和机器学习研究中。

解决学术问题

MedMNIST v2数据集解决了医学图像分析中常见的数据标准化和轻量化问题，为研究人员提供了一个统一的基准平台。通过涵盖多种数据规模和任务类型（如二分类、多分类、序数回归和多标签分类），该数据集促进了不同算法在医学图像分类任务中的比较和评估，推动了相关领域的学术研究进展。

衍生相关工作

基于MedMNIST v2数据集，研究者们开发了多种2D和3D神经网络模型，并探索了开源和商业AutoML工具在医学图像分类中的应用。这些工作不仅提升了医学图像分析的准确性和效率，还推动了相关技术的产业化进程。例如，一些研究团队利用该数据集开发了自动化的医学影像诊断系统，显著提高了临床诊断的效率和准确性。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

猫狗图像数据集

该数据集包含猫和狗的图像，每类各12500张。训练集和测试集分别包含10000张和2500张图像，用于模型的训练和评估。

github 收录

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录

长江干流实时水位观测数据集（2024年）

该数据集为长江干流主要水文站实时水位观测数据集，包含了汉口、户口、九江、宜昌等16个水文站点的逐小时或逐日水位观测数据。该数据集包含3个excel表格文件，长江干流站点.xls，逐日水位.xlsx，逐小时水位.xlsx。

国家地球系统科学数据中心收录

Obstacle-dataset OD

该数据集用于十五种障碍物检测，包含VOC格式和YOLO训练的.txt文件，数据集中的图像来自VOC数据集、COCO数据集、TT100K数据集以及作者团队实地收集的图片。

github 收录

Figshare

Figshare是一个在线数据共享平台，允许研究人员上传和共享各种类型的研究成果，包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录