UniMed|医学成像数据集|视觉语言模型数据集
收藏UniMed-CLIP: Towards a Unified Image-Text Pretraining Paradigm for Diverse Medical Imaging Modalities
数据集概述
数据集名称
UniMed-CLIP
数据集简介
UniMed-CLIP 是一个用于多种医学影像模态的统一图像-文本预训练模型。该模型基于 UniMed 数据集进行训练,UniMed 数据集是一个大规模、开源的多模态医学数据集,包含超过 5.3 百万个图像-文本对,涵盖六种不同的医学影像模态:X-ray、CT、MRI、超声波、病理学和眼底。
数据集特点
- UniMed 数据集:一个开源的大规模多模态医学数据集,包含超过 5.3 百万个样本,涵盖六种不同的医学影像模态。
- UniMed-CLIP 模型:基于 UniMed 数据集训练的对比学习视觉-语言模型,显著优于现有的通用视觉-语言模型,并在多种医学影像模态上表现出色。
- 广泛评估与分析:提供了对不同设计选择的消融实验,并开源了训练代码、数据集和模型检查点,以促进医学视觉-语言模型的进一步研究。
数据集模态
- X-ray
- CT
- MRI
- 超声波
- 病理学
- 眼底
数据集规模
- 超过 5.3 百万个图像-文本对
数据集应用
- 用于训练和评估医学视觉-语言模型(VLMs)
- 支持零样本分类任务
数据集下载与准备
- 提供了详细的下载和准备 UniMed 数据集的说明,参考 UniMed-DATA.md。
预训练模型
提供了三个 UniMed-CLIP 模型的权重:
- ViT-B-16-quickgelu:使用 BiomedNLP-BiomedBERT-base-uncased-abstract 文本编码器,分辨率为 224,平均得分 61.63。
- ViT-L-14-quickgelu:使用 BiomedNLP-BiomedBERT-large-uncased-abstract 文本编码器,分辨率为 336,平均得分 62.09。
- ViT-L-14-quickgelu:使用 BiomedNLP-BiomedBERT-base-uncased-abstract 文本编码器,分辨率为 336,平均得分 64.84。
数据集评估
- 提供了零样本评估的说明,参考 EVALUATION_DATA.md。
数据集引用
如果使用该数据集或模型,请引用以下论文: bibtex @inproceedings{khattakunimed, title={UniMed-CLIP: Towards a Unified Image-Text Pretraining Paradigm for Diverse Medical Imaging Modalities}, author={khattak, Muhammad Uzair and Kunhimon, Shahina and Muzzamal, Naseer and Khan, Salman and Khan, Fahad Shahbaz}, journal={arXiv:2412.10372}, year={2024} }

光伏电站发电量预估数据
1、准确预测一个地区分布式光伏场站的整体输出功率,可以提高电网的稳定性,增加电网消纳光电能量的能力,在降低能源消耗成本的同时促进低碳能源发展,实现动态供需状态预测的方法,为绿色电力源网荷储的应用落地提供支持。 2、准确预估光伏电站发电量,可以自动发现一些有故障的设备或者低效电站,提升发电效能。1、逆变器及电站数据采集,将逆变器中计算累计发电量数据,告警数据同步到Maxcompute大数据平台 2、天气数据采集, 通过API获取ERA5气象数据包括光照辐射、云量、温度、湿度等 3、数据特征构建, 在大数据处理平台进行数据预处理,用累计发电量矫正小时平均发电功率,剔除异常数据、归一化。告警次数等指标计算 4、异常数据处理, 天气、设备数据根据经纬度信息进行融合, 并对融合后的数据进行二次预处理操作,剔除辐照度和发电异常的一些数据 5、算法模型训练,基于XGBoost算法模型对历史数据进行训练, 生成训练集并保存至OSS 6、算法模型预测,基于XGBoost算法模型接入OSS训练集对增量数据进行预测, 并评估预测准确率等效果数据,其中误差率=(发电量-预估发电量)/发电量,当误差率低于一定阈值时,该数据预测为准确。预测准确率=预测准确数量/预测数据总量。
浙江省数据知识产权登记平台 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
Materials Project
材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)
OpenDataLab 收录
YOLO Drone Detection Dataset
为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。
github 收录
PDT Dataset
PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。
arXiv 收录