five

MedFMC|医学图像数据集|机器学习数据集

收藏
github2023-12-04 更新2024-05-31 收录
医学图像
机器学习
下载链接:
https://github.com/matrixgame2018/MedFCMEA
下载链接
链接失效反馈
资源简介:
该数据集包含胸部、结肠和内镜图像,用于医学图像分类挑战。数据集被分割为不同的部分,用于全监督学习和少样本学习任务。

This dataset comprises chest, colon, and endoscopic images, intended for medical image classification challenges. The dataset is partitioned into distinct sections, designed for fully supervised learning and few-shot learning tasks.
创建时间:
2023-09-15
原始信息汇总

数据集概述

数据集结构

数据集目录结构如下:

text data/ ├── MedFMC │ ├── chest │ │ ├── images │ │ ├── chest_X-shot_train_expY.txt │ │ ├── chest_X-shot_val_expY.txt │ │ ├── train_20.txt │ │ ├── val_20.txt │ │ ├── trainval.txt │ │ ├── test_WithLabel.txt │ ├── colon │ │ ├── images │ │ ├── colon_X-shot_train_expY.txt │ │ ├── colon_X-shot_val_expY.txt │ │ ├── train_20.txt │ │ ├── val_20.txt │ │ ├── trainval.txt │ │ ├── test_WithLabel.txt │ ├── endo │ │ ├── images │ │ ├── endo_X-shot_train_expY.txt │ │ ├── endo_X-shot_val_expY.txt │ │ ├── train_20.txt │ │ ├── val_20.txt │ │ ├── trainval.txt │ │ ├── test_WithLabel.txt

数据集内容

  • .txt 文件包含数据分割信息,用于完全监督学习和少样本学习任务。
  • 公共数据集被分割为 trainval.txttest_WithLabel.txt,其中 trainval.txt 进一步分割为 train_20.txtval_20.txt,其中 20 表示训练数据占 trainval.txt 的 20%。
  • test_WithoutLabel.txt 作为每个数据集的验证集。

数据集生成

  • 少样本学习数据分割文件 {dataset}_{N_shot}-shot_train/val_exp{N_exp}.txt 可以通过执行 python tools/generate_few-shot_file.py 生成。
  • N_shot 值为 1, 5, 10,表示患者样本数,而非图像数量。

训练与评估

  • 提供多种配置文件,用于完全监督任务和少样本学习任务。
  • 完全监督任务配置文件存储于 ./configs/densenet, ./configs/efficientnet, ./configs/vit-base, ./configs/swin_transformer
  • 少样本学习任务配置文件存储于 ./configs/ablation_exp./configs/vit-b16_vpt

结果提交

  • 生成所有预测结果并压缩为 result.zip,包含 endo_N-shot_submission.csv, colon_N-shot_submission.csv, chest_N-shot_submission.csv,并上传至 Grand Challenge 网站。
AI搜集汇总
数据集介绍
main_image_url
构建方式
MedFMC数据集的构建基于医学图像分类任务,涵盖了胸部、结肠和内窥镜等多个医学领域的图像数据。数据集的构建过程遵循了MMClassification框架,数据被划分为训练集、验证集和测试集,并提供了详细的文件结构说明。数据集还特别设计了少样本学习任务,通过生成不同样本量的训练和验证文件,支持1-shot、5-shot和10-shot的实验设置。数据集的构建不仅考虑了全监督学习的需求,还特别关注了少样本学习场景下的数据划分和实验设计。
使用方法
MedFMC数据集的使用方法灵活多样,支持全监督学习和少样本学习任务。研究人员可以通过OpenMMLab代码库进行模型的训练和评估,数据集提供了丰富的配置文件,涵盖了DenseNet、EfficientNet、ViT和Swin Transformer等多种模型架构。对于少样本学习任务,用户可以通过提供的脚本生成不同样本量的训练和验证文件,并进行相应的实验。实验结果的提交格式为CSV文件,用户需将不同任务的预测结果打包并上传至Grand Challenge网站。数据集的使用流程清晰,配置文件的详细说明使得研究人员能够快速进行实验设计和结果验证。
背景与挑战
背景概述
MedFMC数据集由NeurIPS 2023研讨会推出,专注于医学图像分类领域的基础模型提示技术。该数据集由多个医学影像子集组成,涵盖胸部、结肠和内窥镜等多个医学领域,旨在通过少量样本学习(few-shot learning)和全监督学习任务,推动医学图像分类技术的发展。数据集的设计与发布由OpenMMLab等机构主导,结合了先进的深度学习框架和医学影像处理技术,为研究者提供了一个标准化的评估平台。MedFMC的推出不仅促进了医学影像分析领域的算法创新,还为临床诊断提供了潜在的辅助工具。
当前挑战
MedFMC数据集在构建和应用过程中面临多重挑战。首先,医学影像数据的获取和标注成本高昂,且涉及隐私保护问题,导致数据集的规模和质量受限。其次,医学影像的多样性和复杂性使得模型在跨领域泛化时表现不佳,尤其是在少量样本学习任务中,模型的鲁棒性和准确性难以保证。此外,数据集的划分和任务设计需要兼顾临床实际需求与算法评估的公平性,这对数据集的构建提出了更高的要求。最后,如何在保证数据隐私的前提下,进一步提升数据集的开放性和可访问性,也是未来需要解决的关键问题。
常用场景
经典使用场景
MedFMC数据集在医学图像分类领域具有广泛的应用,尤其是在基础模型提示(Foundation Model Prompting)技术的探索中。该数据集通过提供多种医学影像数据(如胸部X光、结肠镜图像和内窥镜图像),支持研究者进行全监督学习和少样本学习任务的实验。其经典使用场景包括基于深度学习的图像分类模型训练与评估,特别是在数据量有限的情况下,如何通过少样本学习提升模型的泛化能力。
解决学术问题
MedFMC数据集解决了医学图像分类中数据稀缺和标注成本高昂的难题。通过提供标准化的数据划分和少样本学习任务,研究者能够系统地评估模型在有限数据下的表现。此外,该数据集还支持迁移学习和模型微调的研究,为医学影像领域的模型优化提供了重要的实验平台,推动了基础模型在医学领域的应用与发展。
实际应用
在实际应用中,MedFMC数据集为医学影像诊断系统的开发提供了重要支持。例如,在胸部X光片的自动分类中,该数据集可用于训练模型以识别肺炎、肺结核等疾病。在内窥镜图像分析中,它能够帮助开发自动化工具以检测结肠息肉或早期癌症病变。这些应用显著提升了医疗诊断的效率和准确性,为临床决策提供了有力支持。
数据集最近研究
最新研究方向
在医学图像分类领域,MedFMC数据集的最新研究方向聚焦于基础模型的提示学习(Prompting)技术。这一技术通过微调预训练模型,使其在少量标注数据的情况下仍能保持高精度的分类性能。特别是在NeurIPS 2023的MedFM挑战赛中,MedFMC数据集被广泛应用于少样本学习任务,展示了其在处理胸部、结肠和内窥镜图像分类中的卓越表现。这一研究方向不仅推动了医学图像分析的前沿发展,还为临床诊断提供了更为高效和精准的辅助工具,具有重要的实际应用价值。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录

MedChain

MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集,包含12,163个临床案例,涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程,强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”,经过专业医生验证和去识别化处理,确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力,解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。

arXiv 收录

Traditional-Chinese-Medicine-Dataset-SFT

该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。

huggingface 收录