MedTrinity-25M|医学数据集数据集|多模态数据数据集
收藏MedTrinity-25M 数据集概述
数据集名称
MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine
作者信息
- Yunfei Xie<sup>1,*</sup>
- Ce Zhou<sup>1,*</sup>
- Lang Gao<sup>1,*</sup>
- Juncheng Wu<sup>2,*</sup>
- Xianhang Li<sup>2</sup>
- Hong-Yu Zhou<sup>3</sup>
- Sheng Liu<sup>4</sup>
- Lei Xing<sup>4</sup>
- James Zou<sup>4</sup>
- Cihang Xie<sup>2</sup>
- Yuyin Zhou<sup>2</sup>
机构信息
- <sup>1</sup> Huazhong University of Science and Technology
- <sup>2</sup> UC Santa Cruz
- <sup>3</sup> Harvard University
- <sup>4</sup> Stanford University
数据集链接
数据集简介
MedTrinity-25M 是一个大规模的多模态医学数据集,涵盖超过2500万张图像,涉及10种不同的医学成像模态,并对超过65种疾病进行了多粒度标注。这些丰富的标注包括全局文本信息(如疾病/病变类型、模态、区域特定描述和区域间关系)以及感兴趣区域(ROI)的详细局部标注(如边界框、分割掩码)。与现有方法不同,该数据集通过自动化的流水线生成多粒度的视觉和文本标注(以图像-ROI-描述三元组的形式),无需任何配对的文本描述。具体来说,从90多个不同来源收集、预处理和定位数据,使用领域特定的专家模型识别与异常区域相关的ROI,然后构建一个全面的知识库,并提示多模态大型语言模型进行检索增强生成,从而生成多粒度的文本描述。与现有数据集相比,MedTrinity-25M提供了最丰富的标注,支持广泛的多模态任务,如标题生成和报告生成,以及以视觉为中心的任务,如分类和分割。该数据集可用于支持多模态医学AI模型的大规模预训练,有助于未来医学领域基础模型的发展。
数据集示例
数据集示例图像展示了多粒度的文本描述,其属性比现有的胸部X射线数据集MIMIC-CXR、视觉QA数据集SLAKE和放射学对象标题数据集ROCO更为丰富。
数据集可用性
数据集公开可用,链接为 MedTrinity-25M

- 1MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine华中科技大学, 加州大学圣克鲁兹分校, 哈佛大学, 斯坦福大学 · 2024年
Obstacle-dataset OD
该数据集用于十五种障碍物检测,包含VOC格式和YOLO训练的.txt文件,数据集中的图像来自VOC数据集、COCO数据集、TT100K数据集以及作者团队实地收集的图片。
github 收录
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
Plant-Diseases
Dataset for Plant Diseases containg variours Plant Disease
kaggle 收录
China Groundgroundwater Monitoring Network
该数据集包含中国地下水监测网络的数据,涵盖了全国范围内的地下水位、水质和相关环境参数的监测信息。数据包括但不限于监测站点位置、监测时间、水位深度、水质指标(如pH值、溶解氧、总硬度等)以及环境因素(如气温、降水量等)。
www.ngac.org.cn 收录
URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录