medical-dataset

github2024-04-28 更新2024-05-31 收录

下载链接：

https://github.com/wyh196646/medical-dataset

下载链接

链接失效反馈

资源简介：

包含多个医学影像数据集，如CheXpert、ChestXray-NIHCC等，涉及X光、CT、MRI等多种医学影像数据，用于研究和解决临床问题。

This dataset encompasses multiple medical imaging datasets, such as CheXpert and ChestXray-NIHCC, involving various types of medical imaging data including X-rays, CT scans, and MRI. It is utilized for research and addressing clinical issues.

创建时间：

2024-04-28

原始信息汇总

医学成像数据集列表

主要医学成像数据集

CheXpert

数据量: 224,316张胸片，涉及65,240名患者
关键词: 非常大，X光，标签

ChestXray-NIHCC

数据量: 100,000张胸片
关键词: 非常大，X光，标签

MIMIC-CXR

数据量: 371,920张胸片，关联227,943项影像研究
关键词: 非常大，X光，标签

PadChest

数据量: 160,000张图像，来自67,000名患者
关键词: 非常大，X光，标签

IBM Xray Eye Gaze

数据量: 1000+数据集，包括眼动、放射学报告、听写、分割
关键词: 中等，X光，标签

Cancer Image Archive

数据量: 多种类型的图像，包括CT、MR、病理、PT
关键词: 非常大，CT, MR, 标签

National Lung Screening Trial

数据量: 超过50,000名患者，CT数据
关键词: 非常大，CT, 标签

DeepLesion

数据量: 32,000+ CT扫描，带注释和元数据
关键词: 非常大，CT, 标签

EchoNet-Dynamic

数据量: 10,000+标记的心脏超声视频和人类专家追踪
关键词: 非常大，超声，标签

ABCD Neurocognitive Prediction Challenge

数据量: MRI数据，8500名年轻（9-10岁）受试者
关键词: 大，MRI

AAPM Sparse-View CT Reconstruction Challenge

数据量: 4,000对模拟的2D乳房CT的投影图/图像对
关键词: 大，CT, 重建

Cross-Sectional Multidomain Lexical Processing

数据量: 超过3000 MRI, fMRI
关键词: 大，MRI

MRNet

数据量: 1,370膝关节MRI检查，带诊断
关键词: 大，MRI, 标签

fastMRI

数据量: k空间数据，1500完全采样的膝关节MRIs和10K临床MRIs，以及6.5K脑MRIs
关键词: 大，MRI, k空间

OCMR

数据量: k空间数据，约250个体积
关键词: 中等，MRI, k空间

PREVENT-AD

数据量: 1704 MRI, 556淀粉样蛋白和tau CSF样本，血液标记物，遗传信息和纵向认知数据
关键词: 中等，MRI, 遗传学, 标签

Medical Segmentation Decathlon

数据量: 10个医学图像数据集，带分割
关键词: 中等，MRI, 分割

MASSIVE

数据量: 8000扩散加权体积
关键词: 大，MRI

AOMIC: the Amsterdam Open MRI Collection

数据量: 1000+ fMRI和其他模式受试者，带注释事件文件
关键词: 中等，fMRI

MRIdata

数据量: MRI k空间数据集列表

Cancer Imaging Archive: LDCT

数据量: 601系列CT投影数据，重建图像和临床数据报告
关键词: 中等，CT, 重建

Brain MRI LGG FLAIR异常分割

数据量: 脑MRI图像与手动FLAIR异常分割掩码
关键词: 中等，脑，MRI, 分割, LGG, FLAIR

Studyforrest

数据量: 多种模式（T1,T2,SWI,Angio,DWI, fMRI等）
关键词: 小，多模态

Lung Image Database Consortium

数据量: 诊断和肺癌筛查CTs，1018例
关键词: 大，CT, 标签

Breast Cancer MRI Dataset

数据量: 922名乳腺癌患者，公开可用
关键词: 大，MRI, 标签

UK Biobank

数据量: 非常大量
关键词: 非常大

OpenOrganelle

数据量: 高分辨率组织规模体积电子显微镜（vEM）数据集
关键词: 非常大，EM, 分割

BrixIA: COVID19严重程度评分评估数据库

数据量: 4703张COVID19患者CXR，手动注释Brixia评分
关键词: 大，X光，COVID

COVID-CT

数据量: 349张CT图像，来自几篇COVID19相关论文
关键词: 中等，CT, COVID

Pneumonia X-Ray

数据量: 约5000张X光片
关键词: 中等，X光，肺炎

Medical Imaging Data Resource Center (MIDRC)

数据量: 998张胸片，来自361名COVID+患者
关键词: 大，X光，COVID

BIMCV-COVID19

数据量: 1350+ X光片，150+ CTs，800诊断
关键词: 中等，CT, COVID

MosMedData Covid19

数据量: 1000+ CTs，COVID19患者
关键词: 大，CT, COVID, 分割

COVID-19 LUNG CT LESION SEGMENTATION CHALLENGE

数据量: 约250张胸部CT，带COVID-19病变注释
关键词: 中等，CT, COVID, 注释, 分割

MedSeg COVID-19 CT

数据量: 约100张分割的CT切片
关键词: 中等，CT, 分割, COVID

COVID-Chest XRay

数据量: 约150张X光片，持续更新
关键词: 中等，X光，COVID

BSTI COVID19

数据量: 持续更新，约60名患者，CT
关键词: 中等，CT, COVID

Narratives fMRI

数据量: 345名受试者，891功能扫描，27个不同长度的故事
关键词: 中等，fMRI

RICORD

数据量: 1000张X光片和240张CT，带注释
关键词: 大，CT, COVID, 分割

FIRE (Fundus Image Registration Dataset)

数据量: 129张视网膜图像
关键词: 小，视网膜

DRIVE: Digital Retinal Images for Vessel Extraction

数据量: 40张视网膜图像，带分割
关键词: 小，视网膜，分割

FLARE: Fast and Low GPU memory Abdominal oRgan sEgmentation

数据量: 500+ CT扫描，来自11+国家，腹部器官分割
关键词: 大，腹部，CT

ADNI

数据量: 多种成像（纵向MRI），遗传学，临床数据
关键词: 大，MRI, 遗传学, 临床

VISCERAL

数据量: 约120个图像体积（全身CT和MRI图像）
关键词: 中等，MRI, CT, 全身, 手动分割

Mindboggle

数据量: 101个手动标记的脑MRI
关键词: 中等，MRI, 脑, 手动分割

Cross-Sectional Multidomain Lexical Processing

数据量: 3000个脑扫描（T1w, bold, events）
关键词: 大，MRI, fMRI, 测试

Duke Breast Cancer Screening DBT

数据量: 5,060名患者的数字乳房断层合成图像
关键词: 大，断层合成，DBT, 乳房, 检测

CBIS-DDSM (Curated Breast Imaging Subset of DDSM)

数据量: 2600+扫描胶片乳腺摄影研究
关键词: 大，X光

Neuromorphometrics

数据量: 63个手动标记的脑扫描
关键词: 中等，MRI, 脑, 手动分割, 昂贵

Automatic Non-rigid Histological Image Registration

数据量: 挑战数据集，ISBI2019

7-Tesla rs-fMRI

数据量: 22名参与者，rs-fMRI

SpineWeb

数据量: 200+受试者，多个数据集（CTs, X光片, MRIs）

Whole-Heart and Great Vessel Segmentation from 3D Cardiovascular MRI in Congenital Heart Disease

数据量: 20个先天性心脏病的心脏MR图像

Longitudinal Neuroimaging in Children

数据量: 约50名儿童（约10岁），单次随访MRI, fMRI和评估
关键词: 中等，fMRI, 纵向

Longitudinal Neuroimaging on arithmetic processing in children

数据量: 3T fMRI，132名典型发育儿童，2个时间点，四个任务
关键词: 中等，fMRI, 纵向

Narratives

数据量: 听觉故事聆听fMRI数据集，约7年时间
关键词: 中等，fMRI

ATLAS: Anatomical Tracings of Lesions After Stroke

数据量: 229个T1加权MRI扫描（n=220），带病变分割
关键词: 中等，MRI, 分割

MITOS_WSI_CMC

数据量: 21张犬乳腺肿瘤全切片图像
关键词: 小，2D, 全切片成像

FeTA Dataset

数据量: 48个手动注释的子宫内胎儿MR
关键词: 小，MRI, 胎儿, 标签

SIMON

数据量: 单个志愿者，73次会议，约17年
关键词: 小，MRI, 纵向

BigBrain

数据量: 单个体积，组织学空间，100微米
关键词: 小，组织学，高分辨率，分割

100微米MRI of Human Brain

数据量: 单个体积，超高分辨率MRI数据集（100微米）
关键词: 小，MRI, 脑

Natural Scenes Dataset (CMRR initiative)

数据量: 8名受试者的大规模fMRI（40次会议，高采样，高分辨率）
关键词: 小，MRI, 脑, fMRI

Brain Catalogue

数据量: 不同动物的脑部MRI或脑部
关键词: 小，MRI, 脑, 动物

Multishell diffusion

数据量: 三名健康旅行成人的扩散MRI
关键词: 小，MRI, 扩散, 脑

Pre-Natal MRI

数据量: 产前脑MRI样本（似乎是单个受试者？）
关键词: 小，MRI, 胎儿

BCNB: Early Breast Cancer Core-Needle Biopsy WSI Dataset

数据量: 1058张全切片图像（WSIs），相应的临床特征
关键词: 大，乳腺癌，多模态，WSI, 临床特征

BCI: Breast Cancer Immunohistochemical Image Generation Dataset

数据量: 4870对注册的HE-IHC图像对，覆盖HER2的四个表达水平（0, 1+, 2+, 3+）
关键词: 大，乳腺癌，HE, IHC

非成像数据集

PhysioNet / Pulmonary Edema Severity Grades Based on MIMIC-CXR

数据量: 基于MIMIC-CXR的数据集，包含3个元数据文件，包含肺水肿严重程度等级
关键词: 肺水肿，严重程度等级，胸片，放射学报告，MIMIC-CXR

PhysioNet / Computing in Cardiology 2019 Challenge

数据量: 预测ICU人群中的败血症
关键词: 败血症，ICU，预测

eICU-CRD

数据量: 超过200,000次入院，200多家美国医院的详细重症监护信息
关键词: 大，ICU，临床数据

非医学但有用/有趣的数据集

Moment in time

数据量: 时间点数据集

其他列表或资源池

Giorgos Sfikas: medical imaging datasets

数据量: 医学成像数据集列表

Andy Beam: medical data

数据量: 医学数据列表

Christopher Madan: openMorph

数据量: 开放访问MRI，结构良好的列表

Stephen Aylwards list of open-Access Medical Image Repositories

数据量: 开放访问医学图像存储库列表

google dataset search

数据量: 数据集搜索工具

grand-challenges

数据量: 挑战平台

academic torrents

数据量: 学术种子

multiBrain

数据量: 多脑数据集

openneuro

数据量: 开放神经数据

The Cancer Image Archive

数据量: 癌症图像存档

Cornell Public Image Databases

数据量: 公共图像数据库列表

AI搜集汇总

数据集介绍

构建方式

medical-dataset 数据集的构建基于多个公开的医学影像数据库，涵盖了从胸部X光片到CT、MRI等多种成像技术。这些数据集包括了大量的临床影像，如CheXpert、MIMIC-CXR和PadChest等，每个数据集都包含了数万到数十万不等的影像数据。这些数据集的构建过程中，不仅收集了原始的影像数据，还通过专业放射科医生的报告和注释，为每张影像添加了详细的标签和诊断信息。此外，部分数据集还包含了患者的临床数据和基因信息，以支持多模态分析和深度学习模型的训练。

特点

medical-dataset 数据集的一个显著特点是其多样性和规模。该数据集包含了多种成像技术（如X光、CT、MRI）和多种疾病（如肺炎、癌症、心血管疾病）的影像数据。此外，数据集中的影像数据不仅数量庞大，而且质量高，许多数据集都经过了专业放射科医生的标注，确保了数据的准确性和可靠性。这种多样性和高质量的标注使得该数据集非常适合用于医学影像分析、疾病诊断和预后预测等研究。

使用方法

使用 medical-dataset 数据集时，研究者可以根据研究需求选择不同的子数据集进行分析。首先，用户需要访问相应的数据库网站，如CheXpert或MIMIC-CXR，并遵循其数据使用协议进行注册和下载。下载后的数据可以用于各种机器学习和深度学习模型的训练和验证。例如，可以使用这些数据集训练卷积神经网络（CNN）进行疾病分类或影像分割。此外，数据集中的临床和基因信息也可以与影像数据结合，进行多模态分析。在使用过程中，研究者应注意数据的隐私和安全问题，确保符合相关法律法规。

背景与挑战

背景概述

医疗影像数据集（medical-dataset）是一个汇集了多种医学影像数据的综合性资源库，旨在支持医学影像分析和临床诊断的研究。该数据集包含了来自不同研究机构和项目的大量影像数据，涵盖了胸部X光、CT、MRI等多种成像技术。主要研究人员和机构包括斯坦福大学、麻省理工学院、NIH等，这些机构在医学影像领域具有显著的影响力。数据集的核心研究问题涉及疾病的早期检测、诊断和治疗效果评估，对推动医学影像分析技术的发展具有重要意义。

当前挑战

医疗影像数据集在构建和应用过程中面临多重挑战。首先，数据集的多样性和复杂性使得数据的标准化和整合成为一个难题。其次，医学影像数据的隐私和安全问题需要严格的管理和保护措施。此外，数据集中的标签质量和一致性也是一个关键挑战，因为这直接影响到模型的训练效果和诊断准确性。最后，数据集的规模和质量要求研究人员具备高度的专业知识和技能，以确保数据的可靠性和有效性。

常用场景

经典使用场景

在医学影像分析领域，medical-dataset 数据集被广泛应用于多种经典场景。例如，CheXpert 和 ChestXray-NIHCC 数据集常用于胸部 X 光片的自动诊断，通过深度学习模型识别肺炎、肺结节等疾病。MIMIC-CXR 和 PadChest 数据集则支持大规模胸部 X 光片的分析，包括图像分类、异常检测和报告生成。此外，DeepLesion 和 EchoNet-Dynamic 数据集分别用于 CT 扫描和超声心动图的病变检测与心脏功能评估。

衍生相关工作

基于 medical-dataset 数据集，已衍生出多项经典工作。例如，CheXpert 数据集启发了多个胸部 X 光片自动诊断模型的研究，如 U-Net 和 DenseNet 的应用。MIMIC-CXR 数据集则促进了多模态影像数据的融合研究，推动了影像与临床信息结合的模型开发。此外，DeepLesion 数据集在 CT 扫描病变检测中的应用，也为医学影像分割和病变识别提供了新的研究方向。

数据集最近研究