five

MedMNIST-V2

收藏
github2024-07-24 更新2024-07-25 收录
下载链接:
https://github.com/hylee817/datafreeshield
下载链接
链接失效反馈
资源简介:
MedMNIST-V2是一个生物医学数据集,包含多个子数据集如TissueMNIST、BloodMNIST、PathMNIST等,用于训练和测试生物医学图像识别模型。

MedMNIST-V2 is a biomedical dataset that includes multiple subdatasets such as TissueMNIST, BloodMNIST, PathMNIST, etc., for training and testing biomedical image recognition models.
创建时间:
2024-07-04
原始信息汇总

数据集概述

预训练模型

对于生物医学数据集(MedMNIST-V2),提供了以下预训练模型的链接和准确率:

数据集 ResNet-18 准确率 (%) ResNet-50 准确率 (%)
TissueMNIST 链接 67.62 链接 68.29
BloodMNIST 链接 95.53 链接 95.00
PathMNIST 链接 92.19 链接 91.41
OrganCMNIST 链接 90.74 链接 91.06

对于通用领域数据集(SVHN, CIFAR-10, CIFAR-100),使用了PytorchCV的预训练权重。

样本合成

样本合成基于DeepInversion。提供了多个生成脚本,用于在不同GPU上并行生成数据集,并最终合并。

生成脚本示例

python python3 generate.py --model resnet20_cifar10 --save_root datasets/rn20_cifar10/ --num_total_images 10000 --seed [random_seed] --gpu [gpu_id] python3 generate.py --model resnet56_cifar10 --save_root datasets/rn56_cifar10/ --num_total_images 10000 --seed [random_seed] --gpu [gpu_id] python3 generate.py --model wrn28_10_cifar10 --save_root datasets/wrn28_cifar10/ --num_total_images 10000 --seed [random_seed] --gpu [gpu_id]

python3 generate.py --model resnet20_svhn --save_root datasets/rn20_svhn/ --num_total_images 10000 --seed [random_seed] --gpu [gpu_id] python3 generate.py --model resnet56_svhn --save_root datasets/rn56_svhn/ --num_total_images 10000 --seed [random_seed] --gpu [gpu_id] python3 generate.py --model wrn28_10_svhn --save_root datasets/wrn28_svhn/ --num_total_images 10000 --seed [random_seed] --gpu [gpu_id]

python3 generate_biomedical.py --model resnet18 --data_flag tissuemnist --save_root datasets/rn18_tissue/ --num_total_images 10000 --seed [random_seed] --gpu [gpu_id] python3 generate_biomedical.py --model resnet50 --data_flag tissuemnist --save_root datasets/rn50_tissue/ --num_total_images 10000 --seed [random_seed] --gpu [gpu_id]

合并数据集

提供了合并生成的数据集的脚本: python python3 merge_dataset.py --root [/path/to/save/dataset] --model resnet20 --dataset cifar10

预生成数据集

提供了预生成的数据集链接:

数据集 ResNet-18 ResNet-50
TissueMNIST TBR TBR
BloodMNIST TBR TBR
PathMNIST TBR TBR
OrganCMNIST TBR TBR
数据集 ResNet-20 ResNet-56 WRN-28-10
SVHN 链接 链接 链接
CIFAR-10 链接 链接 链接
AI搜集汇总
数据集介绍
main_image_url
构建方式
MedMNIST-V2数据集的构建基于多种生物医学图像数据源,通过训练ResNet-18和ResNet-50模型进行特征提取和分类。具体构建过程中,首先使用PyTorch框架对TissueMNIST、BloodMNIST、PathMNIST和OrganCMNIST等子数据集进行模型训练,生成预训练模型。随后,利用这些预训练模型进行样本合成,通过DeepInversion技术生成大量合成数据,最终将这些数据集合并为一个统一的MedMNIST-V2数据集。
特点
MedMNIST-V2数据集的显著特点在于其多样性和高质量的生物医学图像数据。该数据集涵盖了多种医学图像类型,包括组织、血液、病理和器官图像,为深度学习模型提供了丰富的训练样本。此外,数据集的构建过程中采用了先进的DeepInversion技术,确保了合成数据的真实性和多样性,从而提高了模型的泛化能力。
使用方法
使用MedMNIST-V2数据集时,用户可以通过提供的PyTorch脚本进行数据加载和预处理。首先,安装所需的依赖包,然后选择合适的预训练模型进行训练或评估。数据集的合成部分可以通过generate.py脚本生成,生成的数据集可以通过merge_dataset.py脚本进行合并。此外,数据集还提供了预生成的数据文件,方便用户直接使用。
背景与挑战
背景概述
MedMNIST-V2数据集是由主要研究人员和机构在2024年创建的,旨在为生物医学图像分类提供一个标准化的基准。该数据集的核心研究问题是如何在缺乏训练数据的情况下防御对抗性攻击,这对于生物医学领域的深度学习应用尤为重要。通过提供多种预训练模型和合成样本,MedMNIST-V2不仅推动了生物医学图像处理技术的发展,还为相关领域的研究提供了宝贵的资源。
当前挑战
MedMNIST-V2数据集面临的挑战主要包括:首先,如何在缺乏训练数据的情况下有效防御对抗性攻击,这是一个在生物医学图像处理领域尚未完全解决的问题。其次,数据集的构建过程中,如何确保合成样本的质量和多样性,以模拟真实世界的复杂情况,也是一个重要的挑战。此外,数据集的广泛应用还依赖于高效的模型训练和评估方法,这需要在计算资源和时间效率上进行优化。
常用场景
经典使用场景
在生物医学领域,MedMNIST-V2数据集被广泛应用于图像分类任务中。该数据集包含了多种医学图像,如TissueMNIST、BloodMNIST、PathMNIST和OrganCMNIST,这些图像被用于训练和验证深度学习模型,特别是卷积神经网络(CNN)。通过使用这些数据集,研究人员能够开发出高精度的医学图像分类模型,从而在病理诊断、疾病预测和治疗方案制定等方面提供有力支持。
衍生相关工作
基于MedMNIST-V2数据集,许多相关研究工作得以展开。例如,研究人员利用该数据集开发了多种先进的图像分类算法,如ResNet和WideResNet,这些算法在医学图像分类任务中表现出色。此外,该数据集还促进了对抗训练和数据增强技术的研究,通过模拟对抗样本和生成合成数据,进一步提升了模型的鲁棒性和泛化能力。
数据集最近研究
最新研究方向
在医学影像分析领域,MedMNIST-V2数据集的最新研究方向主要集中在对抗性攻击防御技术的开发与应用。随着深度学习模型在医疗诊断中的广泛应用,如何保护这些模型免受恶意攻击成为一个紧迫的问题。DataFreeShield方法通过在不依赖原始训练数据的情况下,利用合成数据进行对抗性训练,显著提升了模型的鲁棒性。这一研究不仅在理论上推动了对抗性防御技术的发展,也在实际应用中为医疗AI系统的安全性提供了新的保障。
以上内容由AI搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作