Med-MAT
收藏github2024-12-28 更新2024-12-30 收录
下载链接:
https://github.com/FreedomIntelligence/Med-MAT
下载链接
链接失效反馈官方服务:
资源简介:
Med-MAT是一个包含106个开源医学数据集的视觉问答(VQA)数据集,旨在推动多模态大语言模型(MLLMs)在医学影像领域的泛化实验和训练。数据集通过将图像-标签对转换为VQA格式,帮助模型处理未见过的图像并实现数据高效训练。
Med-MAT is a visual question answering (VQA) dataset encompassing 106 open-source medical datasets, which aims to facilitate generalization experiments and training of multimodal large language models (MLLMs) in the medical imaging domain. By converting image-label pairs into VQA format, this dataset assists models in processing unseen images and achieving data-efficient training.
创建时间:
2024-12-26
原始信息汇总
Med-MAT 数据集概述
数据集简介
Med-MAT 是一个包含 106 个开源医学数据集的多模态问答(VQA)数据集,旨在推动医学多模态大语言模型(MLLMs)的泛化实验和训练。该数据集通过组合泛化(Compositional Generalization, CG)机制,帮助 MLLMs 理解未见过的图像,从而实现数据高效训练。
数据集内容
- 106 个医学数据集的问答对:将图像-标签对转换为 VQA 格式,用于 MLLM 训练。
- 53 个聚合子集的问答对:根据模态(Modality)、解剖区域(Anatomical Area)和任务(Task, MAT)对数据集进行分类,并将相同条目合并为子集。
- 图像下载链接:部分数据集因许可问题无法直接分享,用户可通过链接下载到指定目录。
问答对构建
为了便于 MLLMs 直接在 Med-MAT 上进行训练和测试,图像-标签对被转换为视觉问答(VQA)格式,具体步骤如下:
- 任务定义:每个子集手动分配 6 条指令,指导 MLLM 回答与子集相关的任务。
- 转换为 VQA 格式:所有图像-标签对转换为单选题,最多包含四个选项。
- 干扰项选择:干扰项从子集内的其他标签中随机抽取,以确保多样性。
- 最终数据集:生成 VQA 对,每张图像与一个问题及四个选项配对,其中一个选项为正确答案。
数据访问
用户可以通过 Hugging Face 访问 Med-MAT 的问答对。数据集详情页面提供了每个数据集和子集的图像下载链接和问答对信息,用户可以选择性下载所需数据。
数据集列表
以下是部分数据集的详细信息:
| 编号 | 数据集名称 | 模态 | 解剖区域 | 任务 | 问答对链接 |
|---|---|---|---|---|---|
| 1 | Intel and MobileODT Cervical Screening | Co | Cervix | Cervix Type in Screening | HF |
| 2 | CT Kindney Dataset | CT | Kidney | Normal or Cyst or Tumor | HF |
| 3 | SARS-COV-2 Ct-Scan | CT | Lung | COVID19, Classification Dataset | HF |
| 4 | COVID CT COVID-CT | CT | Lung | COVID19, Classification Dataset | HF |
| 5 | Chest CT-Scan | CT | Lung | Cancer, 3 Cancer Categories, Multiple Classification Dataset | HF |
搜集汇总
数据集介绍

构建方式
Med-MAT数据集的构建过程基于106个开源医学数据集,旨在推动多模态大语言模型(MLLMs)在医学影像领域的泛化能力。首先,研究团队将图像-标签对转换为视觉问答(VQA)格式,以便MLLMs能够直接进行训练和测试。具体步骤包括为每个子集手动定义6个任务指令,将图像-标签对转换为单选题形式,并从子集中随机选择干扰项,最终生成包含图像、问题及四个选项的VQA对。
特点
Med-MAT数据集的特点在于其广泛的覆盖范围和多样化的任务类型。该数据集涵盖了106个医学数据集,涉及多种模态(如CT、MRI、X射线等)、解剖区域(如脑部、肺部、皮肤等)以及任务类型(如分类、检测、分割等)。此外,数据集通过MAT(Modality, Anatomical Area, Task)分类法将数据整合为53个子集,确保了数据的结构化和可扩展性。这些特点使得Med-MAT成为训练和评估医学多模态大语言模型的理想选择。
使用方法
Med-MAT数据集的使用方法灵活多样,用户可以通过Hugging Face平台访问QA对数据。对于需要特定数据的用户,可以根据数据集或子集的下载链接选择性下载。数据集中的图像-标签对已转换为VQA格式,用户可以直接将其用于MLLMs的训练和测试。此外,数据集还提供了详细的分类信息,用户可以根据研究需求选择特定模态、解剖区域或任务类型的数据进行实验。
背景与挑战
背景概述
Med-MAT数据集由FreedomIntelligence团队于2024年12月发布,旨在推动医学多模态大语言模型(MLLMs)的研究与应用。该数据集整合了106个开源医学数据集,涵盖了多种医学影像模态、解剖区域和任务类型。通过将图像-标签对转换为视觉问答(VQA)格式,Med-MAT为MLLMs提供了丰富的训练和测试资源,特别是在组合泛化(Compositional Generalization, CG)方面的研究。组合泛化是MLLMs理解未见图像的关键机制,能够帮助模型处理陌生图像并实现数据高效训练。Med-MAT的发布为医学影像分析与诊断领域提供了重要的数据支持,推动了MLLMs在医疗领域的应用与发展。
当前挑战
Med-MAT数据集在构建与应用过程中面临多重挑战。首先,医学影像数据的多样性和复杂性使得数据整合与标准化成为难题,不同数据集的模态、分辨率和标注标准差异较大,影响了模型的训练效果。其次,数据隐私与版权问题限制了部分医学影像的公开共享,导致数据集的不完整性。此外,将图像-标签对转换为VQA格式的过程中,如何设计合理的问答对以准确反映医学任务的核心问题,也是一个技术难点。最后,MLLMs在处理医学影像时,如何实现组合泛化以应对未见图像,仍需进一步研究与优化。这些挑战不仅影响了数据集的构建,也对模型的性能提出了更高的要求。
常用场景
经典使用场景
Med-MAT数据集在医学影像领域的研究中,广泛应用于多模态大语言模型(MLLMs)的训练与测试。通过将106个开源医学数据集中的图像-标签对转换为视觉问答(VQA)格式,该数据集为模型提供了丰富的训练素材,使其能够在处理未见过的医学图像时展现出更强的泛化能力。这种格式不仅简化了模型的输入输出流程,还为模型提供了多样化的任务定义,使其能够应对不同模态、解剖区域和任务的挑战。
解决学术问题
Med-MAT数据集解决了医学影像领域中多模态大语言模型在泛化能力上的瓶颈问题。通过引入组合泛化(Compositional Generalization)机制,该数据集使得模型能够更好地理解未见过的图像,从而实现数据高效训练。这一机制不仅提升了模型在处理复杂医学图像时的表现,还为医学影像的自动化分析提供了新的研究方向,推动了医学人工智能的发展。
衍生相关工作
基于Med-MAT数据集,许多经典研究工作得以展开。例如,研究人员利用该数据集开发了多种多模态大语言模型,这些模型在医学影像分类、疾病预测和图像分割等任务中表现出色。此外,该数据集还催生了一系列关于组合泛化的研究,进一步推动了医学影像领域的技术创新和理论发展。
以上内容由遇见数据集搜集并总结生成



