UniMed|医学成像数据集|多模态数据数据集
收藏UniMed-CLIP: Towards a Unified Image-Text Pretraining Paradigm for Diverse Medical Imaging Modalities
数据集概述
数据集名称
UniMed-CLIP
数据集描述
UniMed-CLIP 是一个用于多种医学影像模态的统一图像-文本预训练范式的数据集。该数据集包含超过 5.3 百万的图像-文本对,涵盖六种不同的医学影像模态:X-ray、CT、MRI、Ultrasound、Pathology 和 Fundus。
数据集特点
- 多模态数据集:UniMed 数据集包含六种不同的医学影像模态,提供了丰富的多模态数据。
- 大规模数据:数据集包含超过 5.3 百万的图像-文本对,为训练通用医学视觉-语言模型提供了坚实的基础。
- 开放源代码:提供了详细的代码和注释文件,用于准备 UniMed 数据集,促进医学视觉-语言模型的开源研究。
数据集应用
UniMed-CLIP 数据集主要用于训练和评估医学视觉-语言模型(VLMs),特别是在零样本评估中表现出色。
数据集贡献
- UniMed 数据集:一个开放源代码的大规模多模态医学数据集,包含超过 5.3 百万的样本,覆盖六种不同的医学模态。
- UniMed-CLIP VLMs:基于 UniMed 数据集训练的对比学习视觉-语言模型,显著优于现有的通用 VLMs,并在多种医学模态上表现出色。
- 广泛的评估和分析:提供了对不同设计选择的消融实验,并开源了训练代码、数据集和模型检查点,以促进医学 VLMs 的进一步研究。
数据集性能
方法 | 论文链接 | X-ray | Retinal-Fundus | CT | MRI | US | Histopathology | 平均分 |
---|---|---|---|---|---|---|---|---|
BioMedCLIP | Link | 55.43 | 22.87 | 43.99 | 64.59 | 49.20 | 54.50 | 49.02 |
PMC-CLIP | Link | 52.64 | 25.84 | 66.06 | 63.68 | 62.51 | 53.56 | 53.37 |
UniMed-CLIP | Link | 68.78 | 31.23 | 85.54 | 68.83 | 68.64 | 59.96 | 61.63 |
数据集更新
- 2024年12月13日:发布了用于准备 UniMed 预训练数据集的注释和代码脚本,以及 UniMed-CLIP 的训练和推理代码,以及预训练的检查点。
数据集准备
提供了详细的说明和注释文件,用于准备 UniMed 数据集,具体内容请参考 UniMed-DATA.md。
预训练模型
提供了三个 UniMed-CLIP 模型的权重,具体信息如下:
model_name |
text encoder |
pretrained_weights |
分辨率 | GPUs | 21个数据集的平均分 |
---|---|---|---|---|---|
ViT-B-16-quickgelu | BiomedNLP-BiomedBERT-base-uncased-abstract | unimed_clip_vit_b16 |
224 | 16 x A100 (40G) | 61.63 |
ViT-L-14-quickgelu | BiomedNLP-BiomedBERT-large-uncased-abstract | unimed_clip_vit_l14_large_text_encoder |
336 | 16 x A100 (40G) | 62.09 |
ViT-L-14-quickgelu | BiomedNLP-BiomedBERT-base-uncased-abstract | unimed_clip_vit_l14_base_text_encoder |
336 | 16 x A100 (40G) | 64.84 |
数据集引用
如果使用该数据集,请引用以下论文: bibtex @inproceedings{khattakunimed, title={UniMed-CLIP: Towards a Unified Image-Text Pretraining Paradigm for Diverse Medical Imaging Modalities}, author={khattak, Muhammad Uzair and Kunhimon, Shahina and Muzzamal, Naseer and Khan, Salman and Khan, Fahad Shahbaz}, journal={arXiv:2412.10372}, year={2024} }

中国1km分辨率逐月降水量数据集(1901-2023)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
Plant-Diseases
Dataset for Plant Diseases containg variours Plant Disease
kaggle 收录
SWaT Dataset
SWaT Dataset是一个用于工业控制系统(ICS)安全研究的数据集,包含了模拟的网络攻击和正常操作的数据。该数据集由新加坡科技设计大学(Singapore University of Technology and Design)发布,旨在帮助研究人员开发和测试用于检测工业控制系统中网络攻击的算法和模型。
itrust.sutd.edu.sg 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录