five

UniMed|医学成像数据集|视觉语言模型数据集

收藏
github2024-12-16 更新2024-12-17 收录
医学成像
视觉语言模型
下载链接:
https://github.com/mbzuai-oryx/UniMed-CLIP
下载链接
链接失效反馈
资源简介:
UniMed是一个大规模、开源的多模态医学数据集,包含超过530万张图像-文本对,涵盖六种不同的医学成像模态:X射线、CT、MRI、超声、病理学和眼底。该数据集通过利用大型语言模型(LLMs)将特定模态的分类数据集转换为图像-文本格式,并结合现有的医学领域的图像-文本数据,以促进可扩展的视觉语言模型(VLM)预训练。
创建时间:
2024-12-16
原始信息汇总

UniMed-CLIP: Towards a Unified Image-Text Pretraining Paradigm for Diverse Medical Imaging Modalities

数据集概述

数据集名称

UniMed-CLIP

数据集简介

UniMed-CLIP 是一个用于多种医学影像模态的统一图像-文本预训练模型。该模型基于 UniMed 数据集进行训练,UniMed 数据集是一个大规模、开源的多模态医学数据集,包含超过 5.3 百万个图像-文本对,涵盖六种不同的医学影像模态:X-ray、CT、MRI、超声波、病理学和眼底。

数据集特点

  1. UniMed 数据集:一个开源的大规模多模态医学数据集,包含超过 5.3 百万个样本,涵盖六种不同的医学影像模态。
  2. UniMed-CLIP 模型:基于 UniMed 数据集训练的对比学习视觉-语言模型,显著优于现有的通用视觉-语言模型,并在多种医学影像模态上表现出色。
  3. 广泛评估与分析:提供了对不同设计选择的消融实验,并开源了训练代码、数据集和模型检查点,以促进医学视觉-语言模型的进一步研究。

数据集模态

  • X-ray
  • CT
  • MRI
  • 超声波
  • 病理学
  • 眼底

数据集规模

  • 超过 5.3 百万个图像-文本对

数据集应用

  • 用于训练和评估医学视觉-语言模型(VLMs)
  • 支持零样本分类任务

数据集下载与准备

  • 提供了详细的下载和准备 UniMed 数据集的说明,参考 UniMed-DATA.md

预训练模型

提供了三个 UniMed-CLIP 模型的权重:

  • ViT-B-16-quickgelu:使用 BiomedNLP-BiomedBERT-base-uncased-abstract 文本编码器,分辨率为 224,平均得分 61.63。
  • ViT-L-14-quickgelu:使用 BiomedNLP-BiomedBERT-large-uncased-abstract 文本编码器,分辨率为 336,平均得分 62.09。
  • ViT-L-14-quickgelu:使用 BiomedNLP-BiomedBERT-base-uncased-abstract 文本编码器,分辨率为 336,平均得分 64.84。

数据集评估

数据集引用

如果使用该数据集或模型,请引用以下论文: bibtex @inproceedings{khattakunimed, title={UniMed-CLIP: Towards a Unified Image-Text Pretraining Paradigm for Diverse Medical Imaging Modalities}, author={khattak, Muhammad Uzair and Kunhimon, Shahina and Muzzamal, Naseer and Khan, Salman and Khan, Fahad Shahbaz}, journal={arXiv:2412.10372}, year={2024} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
UniMed数据集的构建采用了大规模数据收集框架,结合了大型语言模型(LLMs)的循环处理机制,将特定医学成像模态的分类数据集转换为图像-文本对格式。该数据集涵盖了六种不同的医学成像模态,包括X射线、CT、MRI、超声波、病理学和眼底图像,总计超过530万对图像-文本数据。通过整合现有的医学图像-文本数据,UniMed数据集为视觉-语言模型(VLMs)的预训练提供了丰富的资源,确保了数据的多模态性和广泛适用性。
特点
UniMed数据集的主要特点在于其大规模、多模态和开放性。该数据集不仅涵盖了六种不同的医学成像模态,还通过LLMs的处理机制确保了数据的多样性和高质量。此外,UniMed数据集的开放性为医学领域的视觉-语言模型研究提供了宝贵的资源,推动了该领域的进一步发展。通过对比实验,UniMed-CLIP模型在多个医学数据集上的表现显著优于现有的通用VLMs,甚至在某些情况下与特定模态的专家模型相媲美。
使用方法
使用UniMed数据集进行模型训练和推理时,用户可以通过提供的Jupyter Notebook快速上手。首先,用户需要加载预训练的UniMed-CLIP模型及其权重,并定义相关的文本编码器。随后,用户可以准备图像和文本数据,通过模型进行推理,获取图像与文本之间的相似度得分。此外,数据集的准备和训练过程也提供了详细的指导,用户可以根据需要下载原始数据并进行预处理,以构建适合训练的UniMed数据集。
背景与挑战
背景概述
在医学影像领域,视觉-语言模型(Vision-Language Models, VLMs)的应用逐渐受到关注,但其发展受限于缺乏大规模、多模态的开放数据集。UniMed数据集由Mohamed bin Zayed University of AI、Swiss Federal Institute of Technology Lausanne (EPFL)等机构的研究人员于2024年推出,旨在填补这一空白。该数据集包含了超过530万张图像-文本对,涵盖了X射线、CT、MRI、超声波、病理学和眼底图像等六种医学成像模态。通过利用大型语言模型(LLMs)进行数据转换和整合,UniMed为多模态医学VLM的预训练提供了坚实的基础。其核心研究问题是如何在多模态医学影像中实现统一的图像-文本预训练,从而提升模型的泛化能力和零样本分类性能。UniMed的发布不仅推动了医学VLM的研究,还为相关领域的进一步发展提供了重要的数据支持。
当前挑战
UniMed数据集的构建面临多重挑战。首先,医学影像数据的多样性和复杂性使得数据收集和标注过程异常复杂,尤其是在不同模态之间的数据整合和标准化方面。其次,由于医学数据的敏感性和隐私保护要求,数据集的构建必须严格遵守相关法规,确保数据的合法性和安全性。此外,如何有效地利用大型语言模型将分类数据转换为图像-文本对,并确保转换后的数据质量,也是构建过程中的一大挑战。在应用层面,UniMed-CLIP模型的训练和评估需要处理大规模数据和高计算资源的需求,这对硬件和算法设计提出了更高的要求。最后,如何在多模态数据上实现统一的预训练,并确保模型在不同医学影像任务中的泛化能力,是该数据集和模型面临的核心挑战。
常用场景
经典使用场景
UniMed数据集的经典使用场景主要集中在医学图像与文本的跨模态学习任务中。通过该数据集,研究者可以训练视觉-语言模型(VLMs),以实现对多种医学影像模态(如X射线、CT、MRI、超声、病理学和眼底图像)的零样本分类和图像-文本匹配。这种跨模态学习能力使得模型能够在无需特定模态标注的情况下,对不同医学影像进行理解和分类,极大地提升了医学影像分析的通用性和灵活性。
实际应用
UniMed数据集在实际应用中展现出巨大的潜力,特别是在医学影像的自动诊断和辅助决策系统中。通过训练基于UniMed的VLMs,医生可以利用模型对多种医学影像进行快速、准确的分类和诊断,尤其是在资源有限的地区或紧急情况下。此外,UniMed-CLIP模型在零样本分类任务中的优异表现,使其能够直接应用于临床实践中,无需针对特定模态进行额外训练,从而加速了医学影像分析技术的普及和应用。
衍生相关工作
基于UniMed数据集,研究者们开发了一系列相关的经典工作,其中最为突出的是UniMed-CLIP模型。该模型通过对比学习方法,显著提升了医学VLMs的性能,并在多个医学影像模态的零样本分类任务中取得了领先的结果。此外,UniMed的开放性还激发了更多关于医学数据集构建和跨模态学习的研究,推动了医学影像分析领域的技术进步。未来,基于UniMed的进一步研究有望在医学影像的自动化处理和智能诊断中发挥更大的作用。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

光伏电站发电量预估数据

1、准确预测一个地区分布式光伏场站的整体输出功率,可以提高电网的稳定性,增加电网消纳光电能量的能力,在降低能源消耗成本的同时促进低碳能源发展,实现动态供需状态预测的方法,为绿色电力源网荷储的应用落地提供支持。 2、准确预估光伏电站发电量,可以自动发现一些有故障的设备或者低效电站,提升发电效能。1、逆变器及电站数据采集,将逆变器中计算累计发电量数据,告警数据同步到Maxcompute大数据平台 2、天气数据采集, 通过API获取ERA5气象数据包括光照辐射、云量、温度、湿度等 3、数据特征构建, 在大数据处理平台进行数据预处理,用累计发电量矫正小时平均发电功率,剔除异常数据、归一化。告警次数等指标计算 4、异常数据处理, 天气、设备数据根据经纬度信息进行融合, 并对融合后的数据进行二次预处理操作,剔除辐照度和发电异常的一些数据 5、算法模型训练,基于XGBoost算法模型对历史数据进行训练, 生成训练集并保存至OSS 6、算法模型预测,基于XGBoost算法模型接入OSS训练集对增量数据进行预测, 并评估预测准确率等效果数据,其中误差率=(发电量-预估发电量)/发电量,当误差率低于一定阈值时,该数据预测为准确。预测准确率=预测准确数量/预测数据总量。

浙江省数据知识产权登记平台 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录