Med-VTAB

arXiv2024-04-19 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2404.12876v1

下载链接

链接失效反馈

官方服务：

资源简介：

Med-VTAB是一个大规模的医学视觉任务适应性基准，包含168万医学图像，覆盖多种器官、成像模式和适应性方法。该数据集旨在全面探索视觉任务适应性在实际和重要的医学领域的效果，特别是跨多样化的医学视觉模式，如彩色图像、X射线和CT。通过Med-VTAB，研究了医学提示调谐的可调参数的缩放律，以及使用非医学/医学预训练权重的医学视觉适应的泛化性。此外，还研究了患者ID分布变化对医学视觉适应的影响，这是一个真实且具有挑战性的场景。

Med-VTAB is a large-scale medical visual task adaptation benchmark comprising 1.68 million medical images. It covers diverse organs, imaging modalities, and adaptation methods. This dataset aims to comprehensively explore the performance of visual task adaptation in practical and impactful medical domains, especially across diverse medical visual modalities such as color images, X-rays, and CT scans. Using Med-VTAB, researchers have investigated the scaling laws of tunable parameters for medical prompt tuning, as well as the generalization of medical visual adaptation employing non-medical/medical pre-trained weights. Furthermore, the impact of shifts in patient ID distributions on medical visual adaptation has been studied, which constitutes a realistic and challenging real-world scenario.

提供机构：

卡内基梅隆大学微软研究院

创建时间：

2024-04-19

搜集汇总

数据集介绍

构建方式

在医学影像分析领域，构建一个全面且具有代表性的基准数据集对于评估视觉任务适应技术的有效性至关重要。Med-VTAB数据集的构建过程体现了对医学图像多样性和真实性的深刻考量。该数据集整合了来自公开医学影像资源的168万张图像，覆盖了包括肺、乳腺、胸部、眼、肩、皮肤、脑、骨骼和胃肠道在内的10种器官，并囊括了彩色图像、X射线、光学相干断层扫描、计算机断层扫描和磁共振成像五种成像模态。为确保数据的一致性和可用性，所有图像均经过预处理，包括尺寸调整以适配视觉变换器的固定输入尺寸，同时保留图像的宽高比和诊断完整性；强度归一化以消除不同成像设备和条件带来的光照与对比度差异；并应用了旋转、翻转和轻微缩放等医学上合理的数据增强技术，以提升模型的鲁棒性并缓解过拟合问题。

特点

Med-VTAB数据集的核心特征在于其前所未有的规模、广泛的多样性和精心设计的评估框架。其规模之大，包含168万张医学图像，为大规模模型适应研究提供了坚实基础。多样性体现在器官和模态两个维度：涵盖10种人体关键器官，使得评估能够触及不同解剖结构和病理条件；包含5种主流医学成像模态，要求适应方法能够处理从二维投影到三维体数据的不同图像特性与挑战。此外，该基准系统性地探索了全微调、面向头部、面向主干和面向提示四大类适应策略，具体包括线性探测、适配器、视觉提示调优等多种方法，为全面比较不同参数效率的适应技术提供了标准化平台。

使用方法

Med-VTAB数据集旨在系统评估预训练视觉变换器在医学影像下游任务上的适应能力。研究人员首先选择预训练模型，例如基于通用图像（如DINO v2）或医学图像预训练的视觉变换器。随后，在Med-VTAB包含的多个子数据集上进行适应实验，这些子数据集按器官和模态组织，并已划分为训练、验证和测试集。适应过程涉及采用数据集支持的一种或多种策略（如全微调、适配器插入或提示调优）对模型进行优化，仅更新少量参数或特定模块。模型性能通过在独立测试集上计算平均准确率或受试者工作特征曲线下面积等指标进行评估。该基准特别适用于研究适应技术的缩放规律、跨域（医学与非医学预训练）泛化能力，以及模型在面对患者身份分布外情况时的鲁棒性等关键科学问题。

背景与挑战

背景概述

在医学影像分析领域，视觉任务自适应技术通过微调预训练视觉变换器，展现出在特定下游任务中的巨大潜力。然而，该技术在多样化医学影像模态中的系统性评估长期缺失。为填补这一空白，卡内基梅隆大学与微软研究院的研究团队于2024年共同创建了Med-VTAB大规模医学视觉任务自适应基准。该基准汇聚了168万张涵盖10种器官与5种模态的医学图像，核心研究问题聚焦于探索预训练模型在跨器官、跨模态医学任务中的自适应效能与泛化能力。Med-VTAB的建立为量化评估不同自适应策略在真实临床场景中的表现提供了标准化平台，显著推动了医学影像分析领域向高效、可泛化的自适应学习范式演进。

当前挑战

Med-VTAB致力于解决医学视觉任务自适应领域的核心挑战：其一，在领域问题层面，医学影像存在显著的模态异质性、器官多样性及病理复杂性，单一预训练模型难以在跨模态任务中实现最优适应；同时，患者身份分布偏移构成了模型在真实临床部署中的泛化瓶颈。其二，在构建过程中，面临数据规模与质量的双重挑战：需协调多源异构医学数据集，确保其在分辨率、对比度及标注标准上的统一；此外，为保留影像诊断完整性，需设计兼顾医学合理性与计算效率的预处理与增强流程，并对不同自适应方法进行标准化评估，以揭示其参数效率与性能的平衡关系。

常用场景

经典使用场景

在医学影像分析领域，Med-VTAB数据集作为大规模视觉任务适应基准，其经典使用场景在于评估预训练视觉变换器（ViTs）在多样化医学图像模态上的适应能力。该数据集涵盖168万张医学图像，涉及肺部、乳腺、眼部等多个器官以及彩色图像、X射线、CT等五种模态，为研究者提供了系统探索视觉提示调优、适配器微调等参数高效适应方法的标准化平台。通过Med-VTAB，研究人员能够深入分析不同适应策略在跨器官、跨模态医学任务中的可扩展性与泛化性能，从而推动医学视觉模型从通用领域向专业医疗场景的精准迁移。

解决学术问题

Med-VTAB核心解决了医学视觉任务适应中三大关键学术问题：一是揭示了医学提示调优中可调参数数量与模型性能之间的缩放规律，证明参数量的适度增加能显著提升分类精度；二是探究了基于非医学与医学预训练权重的视觉适应泛化性，表明适配器机制能有效弥合不同预训练源之间的性能差距；三是评估了患者ID分布外场景对模型鲁棒性的影响，验证了提示调优在面对未见患者数据时仍能保持稳定表现。这些研究为医学影像分析提供了理论依据与方法学指导，促进了跨域知识迁移与临床部署的可靠性。

衍生相关工作

Med-VTAB的推出催生了一系列医学视觉适应领域的创新工作。其核心衍生的GMoE-Adapter方法，通过门控混合专家机制融合通用与医学预训练权重，在多项医学图像分类任务中实现了最优性能。该基准进一步激发了针对医学提示调优的缩放律研究、跨模态适配器架构优化以及患者分布外泛化技术的探索。相关研究如基于Med-VTAB的长期空间提示调优（LSPT）、门控提示调优（GaPT）等，均在特定医学视觉任务中展现了显著改进，共同推动了轻量化、高鲁棒性医学视觉适应方法的发展与标准化评估体系的建立。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集