MedFMC

github2023-12-04 更新2024-05-31 收录

下载链接：

https://github.com/matrixgame2018/MedFCMEA

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含胸部、结肠和内镜图像，用于医学图像分类挑战。数据集被分割为不同的部分，用于全监督学习和少样本学习任务。

This dataset comprises chest, colon, and endoscopic images, intended for medical image classification challenges. The dataset is partitioned into distinct sections, designed for fully supervised learning and few-shot learning tasks.

创建时间：

2023-09-15

原始信息汇总

数据集概述

数据集结构

数据集目录结构如下：

text data/ ├── MedFMC │ ├── chest │ │ ├── images │ │ ├── chest_X-shot_train_expY.txt │ │ ├── chest_X-shot_val_expY.txt │ │ ├── train_20.txt │ │ ├── val_20.txt │ │ ├── trainval.txt │ │ ├── test_WithLabel.txt │ ├── colon │ │ ├── images │ │ ├── colon_X-shot_train_expY.txt │ │ ├── colon_X-shot_val_expY.txt │ │ ├── train_20.txt │ │ ├── val_20.txt │ │ ├── trainval.txt │ │ ├── test_WithLabel.txt │ ├── endo │ │ ├── images │ │ ├── endo_X-shot_train_expY.txt │ │ ├── endo_X-shot_val_expY.txt │ │ ├── train_20.txt │ │ ├── val_20.txt │ │ ├── trainval.txt │ │ ├── test_WithLabel.txt

数据集内容

.txt 文件包含数据分割信息，用于完全监督学习和少样本学习任务。
公共数据集被分割为 trainval.txt 和 test_WithLabel.txt，其中 trainval.txt 进一步分割为 train_20.txt 和 val_20.txt，其中 20 表示训练数据占 trainval.txt 的 20%。
test_WithoutLabel.txt 作为每个数据集的验证集。

数据集生成

少样本学习数据分割文件 {dataset}_{N_shot}-shot_train/val_exp{N_exp}.txt 可以通过执行 python tools/generate_few-shot_file.py 生成。
N_shot 值为 1, 5, 10，表示患者样本数，而非图像数量。

训练与评估

提供多种配置文件，用于完全监督任务和少样本学习任务。
完全监督任务配置文件存储于 ./configs/densenet, ./configs/efficientnet, ./configs/vit-base, ./configs/swin_transformer。
少样本学习任务配置文件存储于 ./configs/ablation_exp 和 ./configs/vit-b16_vpt。

结果提交

生成所有预测结果并压缩为 result.zip，包含 endo_N-shot_submission.csv, colon_N-shot_submission.csv, chest_N-shot_submission.csv，并上传至 Grand Challenge 网站。

搜集汇总

数据集介绍

构建方式

MedFMC数据集的构建基于医学图像分类任务，涵盖了胸部、结肠和内窥镜等多个医学领域的图像数据。数据集的构建过程遵循了MMClassification框架，数据被划分为训练集、验证集和测试集，并提供了详细的文件结构说明。数据集还特别设计了少样本学习任务，通过生成不同样本量的训练和验证文件，支持1-shot、5-shot和10-shot的实验设置。数据集的构建不仅考虑了全监督学习的需求，还特别关注了少样本学习场景下的数据划分和实验设计。

使用方法

MedFMC数据集的使用方法灵活多样，支持全监督学习和少样本学习任务。研究人员可以通过OpenMMLab代码库进行模型的训练和评估，数据集提供了丰富的配置文件，涵盖了DenseNet、EfficientNet、ViT和Swin Transformer等多种模型架构。对于少样本学习任务，用户可以通过提供的脚本生成不同样本量的训练和验证文件，并进行相应的实验。实验结果的提交格式为CSV文件，用户需将不同任务的预测结果打包并上传至Grand Challenge网站。数据集的使用流程清晰，配置文件的详细说明使得研究人员能够快速进行实验设计和结果验证。

背景与挑战

背景概述

MedFMC数据集由NeurIPS 2023研讨会推出，专注于医学图像分类领域的基础模型提示技术。该数据集由多个医学影像子集组成，涵盖胸部、结肠和内窥镜等多个医学领域，旨在通过少量样本学习（few-shot learning）和全监督学习任务，推动医学图像分类技术的发展。数据集的设计与发布由OpenMMLab等机构主导，结合了先进的深度学习框架和医学影像处理技术，为研究者提供了一个标准化的评估平台。MedFMC的推出不仅促进了医学影像分析领域的算法创新，还为临床诊断提供了潜在的辅助工具。

当前挑战

MedFMC数据集在构建和应用过程中面临多重挑战。首先，医学影像数据的获取和标注成本高昂，且涉及隐私保护问题，导致数据集的规模和质量受限。其次，医学影像的多样性和复杂性使得模型在跨领域泛化时表现不佳，尤其是在少量样本学习任务中，模型的鲁棒性和准确性难以保证。此外，数据集的划分和任务设计需要兼顾临床实际需求与算法评估的公平性，这对数据集的构建提出了更高的要求。最后，如何在保证数据隐私的前提下，进一步提升数据集的开放性和可访问性，也是未来需要解决的关键问题。

常用场景

经典使用场景

MedFMC数据集在医学图像分类领域具有广泛的应用，尤其是在基础模型提示（Foundation Model Prompting）技术的探索中。该数据集通过提供多种医学影像数据（如胸部X光、结肠镜图像和内窥镜图像），支持研究者进行全监督学习和少样本学习任务的实验。其经典使用场景包括基于深度学习的图像分类模型训练与评估，特别是在数据量有限的情况下，如何通过少样本学习提升模型的泛化能力。

解决学术问题

MedFMC数据集解决了医学图像分类中数据稀缺和标注成本高昂的难题。通过提供标准化的数据划分和少样本学习任务，研究者能够系统地评估模型在有限数据下的表现。此外，该数据集还支持迁移学习和模型微调的研究，为医学影像领域的模型优化提供了重要的实验平台，推动了基础模型在医学领域的应用与发展。

实际应用

在实际应用中，MedFMC数据集为医学影像诊断系统的开发提供了重要支持。例如，在胸部X光片的自动分类中，该数据集可用于训练模型以识别肺炎、肺结核等疾病。在内窥镜图像分析中，它能够帮助开发自动化工具以检测结肠息肉或早期癌症病变。这些应用显著提升了医疗诊断的效率和准确性，为临床决策提供了有力支持。

数据集最近研究