UniMed
收藏arXiv2024-12-14 更新2024-12-17 收录
下载链接:
https://github.com/mbzuai-oryx/UniMed-CLIP
下载链接
链接失效反馈官方服务:
资源简介:
UniMed是一个大规模、开源的多模态医学数据集,由穆罕默德·本·扎耶德人工智能大学等机构创建,包含超过530万张图像-文本对,涵盖六种不同的医学成像模态:X射线、CT、MRI、超声、病理和眼底。数据集通过利用大型语言模型(LLMs)将特定模态的分类数据集转换为图像-文本格式,并结合现有的医学图像-文本数据,实现了可扩展的视觉-语言模型(VLM)预训练。UniMed旨在解决医学领域中公开可用的大规模图像-文本数据稀缺的问题,适用于多种医学成像任务,如零样本分类和跨模态泛化。
UniMed is a large-scale, open-source multimodal medical dataset developed by Mohamed bin Zayed University of Artificial Intelligence and other institutions. It encompasses over 5.3 million image-text pairs spanning six distinct medical imaging modalities: X-rays, computed tomography (CT), magnetic resonance imaging (MRI), ultrasound, pathology, and fundus imaging. The dataset facilitates scalable vision-language model (VLM) pre-training by utilizing large language models (LLMs) to convert modality-specific classification datasets into image-text format, and integrating existing medical image-text data. UniMed aims to address the scarcity of publicly available large-scale image-text data in the medical field, and is applicable to a variety of medical imaging tasks such as zero-shot classification and cross-modal generalization.
提供机构:
穆罕默德·本·扎耶德人工智能大学
创建时间:
2024-12-14
原始信息汇总
UniMed-CLIP: Towards a Unified Image-Text Pretraining Paradigm for Diverse Medical Imaging Modalities
数据集概述
数据集名称
UniMed-CLIP
数据集描述
UniMed-CLIP 是一个用于多种医学影像模态的统一图像-文本预训练范式的数据集。该数据集包含超过 5.3 百万的图像-文本对,涵盖六种不同的医学影像模态:X-ray、CT、MRI、Ultrasound、Pathology 和 Fundus。
数据集特点
- 多模态数据集:UniMed 数据集包含六种不同的医学影像模态,提供了丰富的多模态数据。
- 大规模数据:数据集包含超过 5.3 百万的图像-文本对,为训练通用医学视觉-语言模型提供了坚实的基础。
- 开放源代码:提供了详细的代码和注释文件,用于准备 UniMed 数据集,促进医学视觉-语言模型的开源研究。
数据集应用
UniMed-CLIP 数据集主要用于训练和评估医学视觉-语言模型(VLMs),特别是在零样本评估中表现出色。
数据集贡献
- UniMed 数据集:一个开放源代码的大规模多模态医学数据集,包含超过 5.3 百万的样本,覆盖六种不同的医学模态。
- UniMed-CLIP VLMs:基于 UniMed 数据集训练的对比学习视觉-语言模型,显著优于现有的通用 VLMs,并在多种医学模态上表现出色。
- 广泛的评估和分析:提供了对不同设计选择的消融实验,并开源了训练代码、数据集和模型检查点,以促进医学 VLMs 的进一步研究。
数据集性能
| 方法 | 论文链接 | X-ray | Retinal-Fundus | CT | MRI | US | Histopathology | 平均分 |
|---|---|---|---|---|---|---|---|---|
| BioMedCLIP | Link | 55.43 | 22.87 | 43.99 | 64.59 | 49.20 | 54.50 | 49.02 |
| PMC-CLIP | Link | 52.64 | 25.84 | 66.06 | 63.68 | 62.51 | 53.56 | 53.37 |
| UniMed-CLIP | Link | 68.78 | 31.23 | 85.54 | 68.83 | 68.64 | 59.96 | 61.63 |
数据集更新
- 2024年12月13日:发布了用于准备 UniMed 预训练数据集的注释和代码脚本,以及 UniMed-CLIP 的训练和推理代码,以及预训练的检查点。
数据集准备
提供了详细的说明和注释文件,用于准备 UniMed 数据集,具体内容请参考 UniMed-DATA.md。
预训练模型
提供了三个 UniMed-CLIP 模型的权重,具体信息如下:
model_name |
text encoder |
pretrained_weights |
分辨率 | GPUs | 21个数据集的平均分 |
|---|---|---|---|---|---|
| ViT-B-16-quickgelu | BiomedNLP-BiomedBERT-base-uncased-abstract | unimed_clip_vit_b16 |
224 | 16 x A100 (40G) | 61.63 |
| ViT-L-14-quickgelu | BiomedNLP-BiomedBERT-large-uncased-abstract | unimed_clip_vit_l14_large_text_encoder |
336 | 16 x A100 (40G) | 62.09 |
| ViT-L-14-quickgelu | BiomedNLP-BiomedBERT-base-uncased-abstract | unimed_clip_vit_l14_base_text_encoder |
336 | 16 x A100 (40G) | 64.84 |
数据集引用
如果使用该数据集,请引用以下论文: bibtex @inproceedings{khattakunimed, title={UniMed-CLIP: Towards a Unified Image-Text Pretraining Paradigm for Diverse Medical Imaging Modalities}, author={khattak, Muhammad Uzair and Kunhimon, Shahina and Muzzamal, Naseer and Khan, Salman and Khan, Fahad Shahbaz}, journal={arXiv:2412.10372}, year={2024} }
搜集汇总
数据集介绍

构建方式
UniMed数据集通过一个可扩展的数据收集框架构建,该框架利用大型语言模型(LLMs)将特定模态的分类数据集转换为图像-文本格式。具体而言,研究团队从公开的医学图像-文本数据集中提取了现有的图像-文本对,并结合了通过LLMs生成的伪图像-文本对,最终形成了包含530万对图像-文本的多模态医学数据集。该数据集涵盖了六种不同的医学成像模态,包括X射线、CT、MRI、超声、病理学和眼底成像。
特点
UniMed数据集的主要特点在于其大规模、开放性和多样性。该数据集包含了超过530万对图像-文本对,覆盖了六种不同的医学成像模态,能够为多模态视觉语言模型的预训练提供丰富的数据支持。此外,UniMed数据集的构建过程中使用了LLMs生成的伪图像-文本对,增强了数据集的多样性和质量,使其在零样本和少样本任务中表现出色。
使用方法
UniMed数据集可用于训练和评估多模态视觉语言模型(VLMs),特别是在医学图像识别和分类任务中。用户可以通过对比学习的方式,利用该数据集进行图像-文本对的预训练,从而提升模型在零样本和少样本任务中的泛化能力。此外,UniMed数据集还提供了训练代码和模型检查点,便于研究者进行进一步的研究和开发。
背景与挑战
背景概述
随着视觉-语言模型(VLMs)在自然图像任务中的显著成功,其在医疗领域的应用潜力逐渐受到关注。然而,医疗领域中公开可用的、大规模的图像-文本数据集的稀缺性限制了VLMs在该领域的广泛应用。现有的医疗VLMs大多依赖于封闭的专有数据集或相对较小的开源数据集,这些数据集的泛化能力有限,且大多数模型仅针对单一或有限的医疗成像领域,限制了其跨模态的适用性。为解决这一问题,UniMed数据集应运而生,由Mohamed bin Zayed University of AI等机构的研究人员开发,于2024年推出。该数据集包含了超过530万张图像-文本对,涵盖了X射线、CT、MRI、超声、病理和眼底成像等六种多样化的医疗成像模态。通过利用大型语言模型(LLMs)将模态特定的分类数据集转换为图像-文本格式,UniMed为视觉-语言模型的预训练提供了强大的数据支持,推动了医疗领域多模态基础模型的研究。
当前挑战
UniMed数据集的构建面临多重挑战。首先,医疗数据的隐私性和敏感性使得数据的收集和标注过程极为复杂,尤其是在涉及患者隐私的情况下。其次,医疗图像与自然图像的差异较大,医疗图像的多样性和复杂性要求模型具备更强的泛化能力。此外,现有医疗数据集的规模较小,且多为单一模态,难以满足大规模预训练的需求。UniMed通过引入LLMs生成伪图像-文本对,解决了医疗领域图像-文本数据稀缺的问题,但其生成的文本质量与多样性仍需进一步优化。最后,如何在保护患者隐私的前提下,确保数据集的开放性和可访问性,也是UniMed面临的重要挑战。
常用场景
经典使用场景
UniMed数据集的经典使用场景在于其为多模态医学图像与文本数据的预训练提供了丰富的资源。通过整合超过530万对图像-文本数据,涵盖X射线、CT、MRI、超声、病理学和眼底图像等多种医学成像模态,UniMed为训练统一的视觉-语言模型(VLM)提供了坚实的基础。其主要应用场景包括零样本分类、图像检索和分割等任务,尤其在医学图像识别领域表现突出。
实际应用
UniMed数据集在实际应用中具有广泛的潜力,尤其是在医学图像的自动诊断和辅助决策系统中。通过训练基于UniMed的视觉-语言模型,医生可以利用这些模型进行零样本分类、图像检索和分割等任务,从而提高诊断的准确性和效率。例如,在放射科、眼科和病理学等领域,UniMed-CLIP模型可以快速识别和分类不同类型的医学图像,帮助医生做出更精准的诊断决策。
衍生相关工作
基于UniMed数据集,许多相关工作得以展开,尤其是在医学视觉-语言模型的预训练和应用方面。例如,UniMed-CLIP模型的成功训练为后续研究提供了参考,推动了更多针对医学图像的多模态模型开发。此外,UniMed的开放性也激发了其他研究者构建类似的多模态医学数据集,进一步丰富了医学图像处理领域的研究资源。相关工作还包括对不同模态数据的融合研究,以及如何利用大规模数据集提升模型的泛化能力。
以上内容由遇见数据集搜集并总结生成



