MedMNIST & MedIMeta

github2024-08-03 更新2024-08-05 收录

下载链接：

https://github.com/francescodisalvo05/cvae-anonymization

下载链接

链接失效反馈

官方服务：

资源简介：

MedMNIST和MedIMeta是用于医学图像分析的数据集，包含了多种医学图像数据，如乳腺图像和器官图像。这些数据集用于训练和评估Conditional Variational Autoencoders (CVAEs)，以生成隐私保护的合成特征向量，增加数据多样性和模型鲁棒性。

MedMNIST and MedIMeta are datasets for medical image analysis, which contain various types of medical imaging data such as mammographic images and organ images. These datasets are used to train and evaluate Conditional Variational Autoencoders (CVAEs) to generate privacy-preserving synthetic feature vectors, thereby enhancing data diversity and model robustness.

创建时间：

2024-07-29

原始信息汇总

数据集概述

数据集描述

该数据集是通过使用条件变分自编码器（CVAE）在从大型预训练视觉基础模型中提取的特征向量上训练得到的。这些特征向量捕捉了局部和上下文信息，同时降低了维度。CVAE能够忠实地捕捉给定数据分布的嵌入空间，生成多样、尊重隐私且潜在无限的合成特征向量。

数据集创建流程

预处理：
- 使用预训练模型提取特征嵌入和相应标签。
- 存储特征嵌入和标签。
训练CVAE：
- 使用提取的特征嵌入训练CVAE，以捕捉训练分布，条件是相应的类别标签。
生成合成特征向量：
- 通过CVAE的冻结解码器，动态生成新的合成特征向量，条件是类别标签。

数据集使用

创建数据库

bash python create_db.py --dataset [dataset] --backbone [backbone]

数据库存储在assets/database/[train|val|test].npz。

匿名化

bash python anonymize.py --dataset [dataset]
--anonymizer [kSAME|cvae] --k [k, set if anonymizer == kSAME] --seed [random seed, set if anonymizer == cvae]

匿名化数据库存储在assets/database/train_[anonymizer_id].npz。

训练和评估

bash python probing.py --dataset [dataset] --anonymizer [identity|kSAME|cvae] --k [k, set if anonymizer == kSAME] --seed [random seed] --output_root [where to store output logs]

对于噪声测试嵌入，使用以下命令： bash

for kSAME

python probing_noise.py --dataset [dataset]
--anonymizer [kSAME]
--k [k] --seed [random seed] --sigma [standard deviation of the injected noise] --output_root [where to store output logs]

bash

for CVAE - online data generation

python probing_noise_cvae.py --dataset [dataset]
--anonymizer [cvae-online]
--variance [sampling variance of CVAE] --seed [random seed] --sigma [standard deviation of the injected noise] --output_root [where to store output logs]

搜集汇总

数据集介绍

构建方式

在构建MedMNIST & MedIMeta数据集时，研究者采用了一种创新的方法，即利用条件变分自编码器（CVAE）对从大规模预训练视觉基础模型中提取的特征向量进行训练。首先，通过预训练模型提取并存储图像数据集的特征嵌入及其对应的标签。这些嵌入不仅捕捉了局部和上下文信息，还自然地降低了维度。随后，这些嵌入被用于训练CVAE，以捕捉训练数据分布，并根据相应的类别标签进行条件化。最终，通过CVAE的冻结解码器动态生成新的合成特征向量，确保了数据匿名性，同时增加了数据多样性和模型鲁棒性。

特点

MedMNIST & MedIMeta数据集的主要特点在于其隐私保护和数据多样性。通过CVAE生成的合成特征向量，不仅确保了原始数据的匿名性，还能够在不泄露敏感信息的前提下，提供丰富的数据样本。此外，该数据集利用预训练模型的特征嵌入，有效捕捉了复杂模式，使得生成的数据在多个领域中具有广泛的应用潜力。这种构建方式还增强了模型的鲁棒性，使其在面对不同任务时表现更为稳定。

使用方法

使用MedMNIST & MedIMeta数据集时，首先需通过提供的脚本下载并预处理相关数据。随后，用户可以通过运行`create_db.py`脚本创建数据库，并选择合适的预训练模型作为骨干。为了进一步保护隐私，可以使用`anonymize.py`脚本对数据进行匿名化处理。最后，通过`probing.py`或`probing_noise.py`脚本进行模型训练和评估，用户可以根据需求选择不同的匿名化方法和参数设置，以实现最佳的模型性能。

背景与挑战

背景概述

MedMNIST & MedIMeta数据集是由Francesco Di Salvo、Tafler David、Sebastian Doerrich和Christian Ledig等研究人员在2024年创建的，旨在通过条件变分自编码器（CVAE）捕捉特征分布，从而生成隐私保护的合成数据。该数据集的核心研究问题是如何在保持数据多样性和模型鲁棒性的同时，确保数据的匿名性。这一研究对医学影像分析领域具有重要意义，特别是在数据隐私和安全日益受到关注的背景下，为隐私保护的数据生成提供了新的方法和工具。

当前挑战

MedMNIST & MedIMeta数据集在构建过程中面临的主要挑战包括：首先，如何有效地从大规模预训练的视觉基础模型中提取特征嵌入，并确保这些嵌入既能捕捉局部和上下文信息，又能降低维度。其次，训练条件变分自编码器（CVAE）以准确捕捉训练数据的分布，同时保持类标签的条件性，是一个复杂的过程。此外，如何在生成新的合成特征向量时，确保数据匿名性和多样性，同时不影响模型的鲁棒性，也是该数据集需要解决的关键问题。

常用场景

经典使用场景

在医学影像分析领域，MedMNIST & MedIMeta数据集的经典使用场景主要集中在隐私保护和数据增强方面。通过利用条件变分自编码器（CVAE），该数据集能够生成多样且尊重隐私的合成特征向量，从而在不泄露原始数据信息的前提下，提升模型的训练效果和鲁棒性。这种技术特别适用于需要大量数据进行训练但又必须严格保护患者隐私的医疗应用场景。

实际应用

在实际应用中，MedMNIST & MedIMeta数据集广泛应用于医疗影像的隐私保护和数据增强。例如，在医院和研究机构中，该数据集可以帮助研究人员在不侵犯患者隐私的前提下，进行大规模的模型训练和验证。此外，它还可以用于开发和测试新的隐私保护算法，确保在数据共享和分析过程中，患者的敏感信息得到有效保护。

衍生相关工作

基于MedMNIST & MedIMeta数据集，衍生了一系列关于隐私保护和数据增强的经典工作。例如，有研究者利用该数据集开发了新的隐私保护算法，进一步提升了数据匿名化的效果。此外，还有工作探讨了如何通过CVAE生成的合成数据，提高医学影像分类和检测模型的性能。这些研究不仅丰富了医学影像分析的理论基础，也为实际应用提供了有力的技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集