MedIMeta

Name: MedIMeta
Creator: 图宾根大学、卢塞恩大学
Published: 2024-04-24 18:25:31
License: 暂无描述

github2024-04-24 更新2024-05-31 收录

下载链接：

https://github.com/StefanoWoerner/medimeta-pytorch

下载链接

链接失效反馈

官方服务：

资源简介：

MedIMeta数据集是图宾根大学和卢塞恩大学联合创建的一个综合性的多领域多任务医学影像元数据集。该数据集整合了19个医学影像数据集，涵盖10个不同的领域和54种不同的医学任务，如病理切片、超声波图像、X光片等。这些数据集都被标准化为统一的格式，并且可以直接用于PyTorch或其他机器学习框架。此外，MedIMeta提供了易于使用的Python包medimeta，支持数据加载，且与跨领域和少样本学习库TorchCross兼容。该数据集的发布，为医学影像分析领域的研究者提供了一个无需额外预处理即可使用的多样化医学影像资源，极大地促进了医学专业人员与机器学习社区之间的跨学科合作。 ArXiv Link: https://arxiv.org/abs/2404.16000

The MedIMeta dataset is a comprehensive multi-domain and multi-task medical imaging meta-dataset jointly developed by the University of Tübingen and the University of Lucerne. This dataset integrates 19 medical imaging datasets, covering 10 distinct domains and 54 diverse medical tasks, including pathological slides, ultrasound images, X-ray films, etc. All these datasets have been standardized into a unified format and can be directly used with PyTorch or other machine learning frameworks. Furthermore, MedIMeta provides an easy-to-use Python package named medimeta that supports data loading and is compatible with TorchCross, a cross-domain and few-shot learning library. The release of this dataset provides researchers in the field of medical image analysis with a diverse set of medical imaging resources that require no additional preprocessing for immediate use, greatly facilitating interdisciplinary collaboration between medical professionals and the machine learning community. ArXiv Link: https://arxiv.org/abs/2404.16000

提供机构：

图宾根大学、卢塞恩大学

创建时间：

2024-04-24

原始信息汇总

数据集概述

名称： Medical Imaging Meta-Dataset (MedIMeta)

目的： 用于促进ML模型和跨域少样本学习算法的开发及标准化评估。

特点：

多域多任务： 包含19个医疗影像数据集，覆盖10个不同领域，涉及54个不同的医疗任务。
标准化格式： 所有任务均标准化至相同格式，适用于PyTorch或其他ML框架。
图像大小： 所有数据集的图像大小统一为224×224像素。
预制分割： 提供预先制作的分割，便于使用和标准化基准测试。

许可： 所有数据集均具有开放许可，允许重新分发。

数据集使用

访问方式：

可通过medimeta.MedIMeta类访问，该类扩展自torch.utils.data.Dataset。
示例代码： python from medimeta import MedIMeta dataset = MedIMeta("data/MedIMeta", "oct", "Disease") sample = dataset[0] print(sample[0].shape) print(sample[1])

高级应用：

结合TorchCross进行跨域学习、少样本学习和元学习。
提供两种便利类，用于从多个MedIMeta任务生成批次和生成多个MedIMeta任务的少样本实例。

示例：

查看examples目录获取使用MedIMeta与TorchCross的示例。
- imagenet_pretrained.py
- cross_domain_pretraining.py
- cross_domain_maml.py
- fully_supervised.py

搜集汇总

数据集介绍

构建方式

MedIMeta数据集的构建基于19个医学影像数据集，涵盖10个不同领域和54个独特的医学任务。这些数据集经过标准化处理，图像尺寸统一为224×224像素，以适应预训练模型的常见输入要求。此外，数据集提供了预先定义的分割，确保了使用和基准测试的标准化。所有数据集均已公开发布，并获得了重新分发的许可，确保了数据集的合法性和可用性。

特点

MedIMeta数据集的主要特点在于其多领域、多任务的特性，为医学图像分类的机器学习模型和跨领域少样本学习算法的发展提供了丰富的资源。数据集的标准化格式和预定义分割使得其在PyTorch等机器学习框架中易于使用。此外，MedIMeta与TorchCross库的集成，进一步支持了跨领域学习和少样本学习的实验需求。

使用方法

MedIMeta数据集可以通过`medimeta.MedIMeta`类轻松访问，该类扩展了`torch.utils.data.Dataset`类。用户可以通过指定数据存储路径和任务类型来创建数据集实例，并直接在PyTorch中进行操作。此外，MedIMeta与TorchCross库的结合，使得用户可以进行跨领域学习、少样本学习和元学习的实验。详细的示例代码和使用方法可以在提供的示例目录中找到。

背景与挑战

背景概述

MedIMeta数据集是由一支专注于医学影像分类的团队引入的，旨在推动机器学习模型和跨领域小样本学习算法的发展与标准化评估。该数据集包含了19个医学影像数据集，跨越10个不同领域，涵盖54个独特的医学任务。所有数据集均被标准化为224×224像素的格式，以便与预训练模型兼容，并提供了预制的分割以简化使用和标准化基准测试。MedIMeta的发布不仅为单任务和多任务训练提供了丰富的资源，还通过与TorchCross库的集成，支持跨领域学习、小样本学习和元学习实验，从而在医学影像分析领域具有重要的研究价值。

当前挑战

MedIMeta数据集面临的挑战主要集中在跨领域和小样本学习的复杂性上。首先，不同医学领域的数据分布差异大，如何有效整合这些数据以进行跨领域学习是一个技术难题。其次，小样本学习要求模型在有限的数据上进行高效学习，这对模型的泛化能力和数据利用率提出了高要求。此外，数据集的标准化过程中，确保所有任务格式的一致性以及数据质量的稳定性也是一大挑战。最后，尽管MedIMeta提供了预制的分割，如何在这些分割上进行公平且有效的基准测试，仍需进一步的研究和验证。

常用场景

经典使用场景

MedIMeta数据集的经典使用场景主要集中在医学图像分类领域，尤其是在多领域、多任务的元学习环境中。该数据集通过整合19个医学影像数据集，跨越10个不同领域，涵盖54个独特的医学任务，为研究者提供了一个标准化的评估平台。研究者可以利用MedIMeta进行跨域少样本学习算法的开发与评估，尤其是在PyTorch框架下，结合TorchCross库，能够轻松实现跨域学习、少样本学习和元学习实验。

衍生相关工作

MedIMeta数据集的推出激发了大量相关研究工作，特别是在跨域学习和少样本学习领域。例如，研究者利用MedIMeta与TorchCross库结合，探索了基于MAML（Model-Agnostic Meta-Learning）的跨域元学习方法，以及在不同医学任务上的预训练和微调策略。这些工作不仅推动了医学影像分析技术的发展，也为其他领域的多任务学习提供了宝贵的参考。

数据集最近研究