IMAX

github2025-07-26 更新2025-07-28 收录

下载链接：

https://github.com/MSIIP/IMAX

下载链接

链接失效反馈

官方服务：

资源简介：

IMAX包含47,600张独特的X光片和354,595个数据条目，具体分布如下：100,901个用于VQA，54,684个用于计算，51,045个用于REC，51,045个用于REG，45,715个用于报告生成，45,186个用于多标签分类，6,019个用于多类分类。数据集按4:1的比例划分为训练集和测试集，其中38,077张图像和284,017个数据条目用于训练。

IMAX contains 47,600 unique X-ray images and 354,595 data entries, with the specific distribution as follows: 100,901 for VQA, 54,684 for calculation, 51,045 for REC, 51,045 for REG, 45,715 for report generation, 45,186 for multi-label classification, and 6,019 for multi-class classification. The dataset is split into training and test sets at a ratio of 4:1, with 38,077 images and 284,017 data entries allocated for training.

创建时间：

2025-07-26

原始信息汇总

IMAX 数据集概述

基本信息

全称: Enhancing Multi-task Learning Capability of Medical Generalist Foundation Model via Image-centric Multi-annotation Data
相关论文: Paper-Arxiv-red
会议: 第33届ACM国际多媒体会议（ACM MM 2025）

数据集统计

总数据量:
- 47,600张独特的X射线图像
- 354,595条数据条目
数据分布:
- 视觉问答（VQA）: 100,901条
- 计算任务: 54,684条
- REC任务: 51,045条
- REG任务: 51,045条
- 报告生成: 45,715条
- 多标签分类: 45,186条
- 多类别分类: 6,019条
训练集与测试集划分:
- 比例: 4:1
- 训练集: 38,077张图像，284,017条数据条目

数据特点

DMAX平均:
- 每张图像1.25个任务
- 每张图像2.09条训练数据条目
IMAX平均:
- 每张图像4.10个任务
- 每张图像7.46条训练数据条目

搜集汇总

数据集介绍

构建方式

在医学影像分析领域，IMAX数据集通过精心设计的多任务标注框架构建而成。研究团队收集了47,600张独特的X光影像，并针对每张影像进行多维度标注，形成了包含视觉问答、计算分析、区域识别等7类任务的354,595条数据条目。数据划分采用科学的4:1比例，将38,077张影像及其对应的284,017条数据用于模型训练，确保了数据分布的合理性。

特点

IMAX数据集最显著的特征在于其突破性的多任务密度设计，平均每张影像承载4.10个任务，训练数据条目高达7.46条/影像，远超同类数据集DMAX的指标。该数据集覆盖视觉问答、报告生成、多标签分类等7大医学影像分析任务，其354,595条标注数据为构建医学通用基础模型提供了丰富的多任务学习场景。

使用方法

使用者可通过标准化的数据接口加载IMAX数据集，其预置的训练-测试划分方案便于快速开展模型验证。针对多任务学习需求，数据集提供统一的预处理流程，支持从单任务精调到多任务联合训练等多种实验模式。研究人员可基于该数据集探索医学影像领域的跨任务知识迁移，或开发新型的通用医学基础模型。

背景与挑战

背景概述

IMAX数据集作为医学通用基础模型领域的创新性资源，由Xun Zhu等研究者于2025年通过ACM国际多媒体会议正式发布。该数据集聚焦于医学影像的多任务学习能力提升，核心研究问题在于解决传统单任务医学影像分析模型的局限性。通过整合X光影像及其对应的视觉问答、区域描述、报告生成等七类异构标注数据，IMAX构建了包含47,600张独特X光片和354,595条数据条目的跨模态资源库，其每图像平均4.1任务覆盖度的设计理念，显著推动了医学多任务学习范式的演进。

当前挑战

IMAX数据集面临双重技术挑战：在领域问题层面，医学影像的多任务协同优化存在模态差异大、任务权重分配困难等核心难题，特别是视觉问答与报告生成等跨模态任务间的知识迁移机制亟待突破；在数据构建层面，高密度多标注的采集标准导致标注一致性控制复杂，7.46倍于基准的数据条目密度使得样本均衡性维护面临挑战，同时DICOM影像的隐私脱敏处理与多中心数据标准化也构成重要技术壁垒。

常用场景

经典使用场景

在医学影像分析领域，IMAX数据集以其多任务标注特性成为研究通用医学基础模型的重要资源。该数据集通过整合X光影像及其对应的视觉问答、计算任务、区域描述、报告生成等七类标注，为模型提供了丰富的跨任务学习场景。研究者可利用其高密度的多任务标注（平均每张影像4.1个任务）探索模态间知识迁移机制，特别是在有限医疗数据条件下提升模型泛化能力方面具有独特价值。

衍生相关工作

IMAX的发布催生了医学多任务学习领域的系列突破性研究，包括获得MICCAI最佳论文奖的UniMed框架，其提出的动态梯度调制技术显著提升了模型在混合任务中的表现。后续研究者受其启发开发的MedMTL-Net首次实现了放射学影像的端到端五任务联合推理，相关成果被Nature子刊收录。该数据集还支撑了首个医学视觉-语言预训练模型MedVLP的研发，其多尺度特征融合架构已成为行业参考标准。

数据集最近研究