CheXpert, ChestXray-NIHCC, MIMIC-CXR, PadChest, Cancer Image Archive, National Lung Screening Trial, DeepLesion, EchoNet-Dynamic, ABCD Neurocognitive Prediction Challenge, Cross-Sectional Multidomain Lexical Processing, Neurite-OASIS, MRNet, fastMRI, OCMR

github2021-06-23 更新2024-05-31 收录

下载链接：

https://github.com/mateuszbuda/medical-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含多个医疗影像数据集的列表，每个数据集都专注于不同的医疗影像领域，如X光、CT、MRI等，并提供了详细的关键词描述。

This is a list comprising multiple medical imaging datasets, each focusing on distinct domains within medical imaging, such as X-rays, CT scans, MRI, among others, and provides detailed keyword descriptions.

创建时间：

2019-06-10

原始信息汇总

数据集概述

主要医学影像数据集列表

CheXpert
- 数据量：224,316张胸片，涉及65,240名患者
- 特征：包含报告标签
- 关键词：非常大规模，X光，标签
ChestXray-NIHCC
- 数据量：100,000张放射照片
- 关键词：非常大规模，X光，标签
MIMIC-CXR
- 数据量：371,920张胸片，关联227,943项影像研究
- 版本信息：v2，包含自由文本放射学报告
- 关键词：非常大规模，X光，标签
PadChest
- 数据量：160,000张图像，来自67,000名患者
- 特征：由放射科医生解释和报告，标记有174种不同的放射学发现，19种鉴别诊断和104种解剖位置
- 关键词：非常大规模，X光，标签
Cancer Image Archive
- 数据量：多种类型的图像，包括CT、MR、病理学、PT，带有诊断
- 关键词：非常大规模，CT，MR，标签
National Lung Screening Trial
- 数据量：超过50,000名患者的CT数据，部分包含病理学信息，有限可用性
- 关键词：非常大规模，CT，标签
DeepLesion
- 数据量：32,000+ CT扫描，带注释、元数据和来自放射学报告的语义标签
- 关键词：非常大规模，CT，标签
EchoNet-Dynamic
- 数据量：10,000+标记的心脏超声视频和人类专家追踪
- 关键词：非常大规模，超声，标签
ABCD Neurocognitive Prediction Challenge
- 数据量：8500名年轻（9-10岁）受试者的MRI数据（约4100名用于训练）
- 关键词：大规模，MRI
Cross-Sectional Multidomain Lexical Processing
- 数据量：超过3000次MRI、fMRI
- 关键词：大规模，MRI，fMRI，测试
Neurite-OASIS
- 数据量：414次T1 MRI，来自OASIS数据集，使用FreeSurfer和SAMSEG处理
- 特征：包括原始图像，以及处理后的体积和结果解剖分割图
- 关键词：大规模，MRI，分割，标签，注释，处理
MRNet
- 数据量：1,370次膝关节MRI检查，带有诊断（健康/ACL撕裂/半月板撕裂）
- 关键词：大规模，MRI，标签
fastMRI
- 数据量：1500次完全采样的膝关节MRI和10K临床MRI，以及6.5K脑部MRI
- 关键词：大规模，MRI，k空间
OCMR
- 数据量：约250个体积的k空间数据
- 关键词：中等规模，MRI，k空间
PREVENT-AD
- 数据量：1704次MRI，556次淀粉样蛋白和tau CSF样本，血液标记物，遗传信息和纵向认知数据
- 关键词：中等规模，MRI，遗传学，标签
Medical Segmentation Decathlon
- 数据量：2000+ CT和MR图像，来自不同来源的各种器官
- 关键词：中等规模，MRI，分割
MASSIVE
- 数据量：8000次扩散加权体积
- 关键词：大规模，MRI
AOMIC: the Amsterdam Open MRI Collection
- 数据量：1000+ fMRI和其他模式受试者，带注释的事件文件；原始和预处理
- 关键词：中等规模，fMRI
Lung Image Database Consortium
- 数据量：1018例诊断和肺癌筛查CT
- 特征：一些放射科医生注释/分割和结节计数
- 关键词：大规模，CT，标签
UK Biobank
- 关键词：非常大规模
BrixIA: COVID19 severity score assessment databse
- 数据量：4703张COVID19患者的CXR，手动注释Brixia评分
- 关键词：大规模，X光，COVID
COVID-CT
- 数据量：349张从几篇COVID19相关论文收集的CT图像
- 关键词：中等规模，CT，COVID
COVID-Chest XRay
- 数据量：约150张X光片，持续更新，部分医院数据
- 关键词：中等规模，X光，COVID
Penumonia X-Ray
- 数据量：约5000张X光片
- 关键词：中等规模，X光，肺炎
MedSeg COVID-19 CT
- 数据量：约100张分割的CT切片
- 关键词：中等规模，CT，分割，COVID
BIMCV-COVID19
- 数据量：1350+张X光片，150+张CT，800次诊断
- 关键词：中等规模，CT，COVID
COVID-19 LUNG CT LESION SEGMENTATION CHALLENGE
- 数据量：约250张胸部CT，带有阳性RT-PCR SARS-CoV-2，COVID-19病变注释
- 关键词：中等规模，CT，COVID，注释，分割
BSTI COVID19
- 数据量：约60名患者，CT
- 关键词：中等规模，CT，COVID
MosMedData Covid19
- 数据量：1000+张COVID19患者的CT
- 特征：50张是按像素注释的
- 关键词：大规模，CT，COVID，分割
RICORD
- 数据量：1000张X光片和240张CT，带注释
- 关键词：大规模，CT，COVID，分割
ADNI
- 数据量：多种影像（纵向MRI），遗传学，临床数据
- 关键词：大规模，MRI，遗传学，临床
VISCERAL
- 数据量：约120个图像体积（全身CT和MRI图像）
- 特征：超过1900个注释的解剖结构
- 关键词：中等规模，MRI，CT，全身，手动分割
Mindboggle
- 数据量：似乎是101个手动标记的脑部MRI
- 关键词：中等规模，MRI，脑，手动分割
Cross-Sectional Multidomain Lexical Processing
- 数据量：3000脑部扫描（T1w，bold，事件）
- 特征：标准化测试，分数，人口统计
- 关键词：大规模，MRI，fMRI，测试
CBIS-DDSM (Curated Breast Imaging Subset of DDSM)
- 数据量：2600+扫描胶片乳腺摄影研究
- 关键词：大规模，X光
Neuromorphometrics
- 数据量：63个手动标记的脑部扫描
- 特征：成本（$1500？）
- 关键词：中等规模，MRI，脑，手动分割，昂贵
7-Tesla rs-fMRI
- 数据量：22名参与者，认知和生理测量，以及7T rs-fMRI
- 关键词：小规模，MRI，脑
SpineWeb
- 数据量：200+受试者，跨几个数据集（CTs，X光片，MRIs）
- 关键词：小规模，多模态
Whole-Heart and Great Vessel Segmentation from 3D Cardiovascular MRI in Congenital Heart Disease
- 数据量：20个先天性心脏病的心脏MR图像
- 关键词：小规模，MRI，心脏
Longitudinal Neuroimaging in Children
- 数据量：约50名儿童（约10岁），单次随访MRI，fMRI和评估
- 关键词：中等规模，fMRI，纵向
Longitudinal Neuroimaging on arithmetic processing in children
- 数据量：3T fMRI，132名典型发育儿童，2个时间点，四个任务
- 关键词：中等规模，fMRI，纵向
Narratives
- 数据量：聚合了大约七年的听觉故事聆听fMRI数据集
- 关键词：中等规模，fMRI
ATLAS: Anatomical Tracings of Lesions After Stroke
- 数据量：229次T1-加权MRI扫描（n=220），带病变分割
- 关键词：中等规模，MRI，分割
MITOS_WSI_CMC
- 数据量：21张犬乳腺肿瘤全切片图像
- 特征：由2/3位专家注释
- 关键词：小规模，2D，全切片成像
FeTA Dataset
- 数据量：48个手动注释的子宫内胎儿MRI
- 关键词：小规模，MRI，胎儿，标签
SIMON
- 数据量：单个志愿者，73次在多个地点进行的会议，约17年
- 特征：每次会议至少有T1 MRI，其他模式根据会议变化
- 关键词：小规模，MRI，纵向
BigBrain
- 数据量：单个体积，组织学空间（100微米），带GM/WM表面和皮质层
- 关键词：小规模，组织学，高分辨率，分割
100 micron MRI of Human Brain
- 数据量：单个体积，超高分辨率MRI数据集（100微米）
- 关键词：小规模，MRI，脑
Natural Scenes Dataset (CMRR initiative)
- 数据量：8名受试者的大规模fMRI（40次会议，高采样，高分辨率）。T1w，T2w，T2*w MRI
- 关键词：小规模，MRI，脑，fMRI
Brain Catalogue
- 数据量：（离体）不同动物的脑部MRI或脑部
- 关键词：小规模，MRI，脑，动物
Multishell diffusion
- 数据量：三名健康旅行成人的扩散MRI
- 关键词：小规模，MRI，扩散，脑
Pre-Natal MRI
- 数据量：产前脑部MRI样本（看起来像是单个受试者？）
- 关键词：小规模，MRI，胎儿

非影像数据集

PhysioNet / Computing in Cardiology 2019 Challenge
- 数据量：5000名ICU患者，三个独立的医院系统
- 目标：预测ICU人群中的败血症
eICU-CRD
- 数据量：超过200,000次重症监护住院，200多家美国医院
- 特征：详细的重症监护住院信息
- 访问：与MIMIC访问同步

非医学但有用/有趣的数据集

Moment in time
- 描述：时间点数据集

其他资源列表或资源池

Giorgos Sfikas: 医学影像数据集列表 github
Andy Beam: 医学数据列表 github
Christopher Madan: openMorph（开放访问MRI，结构良好的列表）
Stephen Aylward: 开放访问医学图像存储库列表
google数据集搜索
grand-challenges
学术种子
multiBrain
openneuro数据库
The Cancer Image Archive
Cornell公共图像数据库

搜集汇总

数据集介绍

构建方式

CheXpert数据集的构建基于224,316张来自65,240名患者的胸部X光片，这些数据通过放射学报告进行标注。数据集的设计旨在通过大规模的医学影像数据，支持深度学习模型在胸部疾病诊断中的应用。数据的收集和处理遵循严格的医学标准，确保了数据的质量和可靠性。

特点

CheXpert数据集的特点在于其规模庞大且标注精细，涵盖了多种胸部疾病的影像数据。每张X光片都附有详细的放射学报告，这些报告经过专业处理，转化为结构化的标签信息。此外，数据集还提供了多种病理状态的标注，如肺炎、肺不张等，为研究者提供了丰富的实验材料。

使用方法

使用CheXpert数据集时，研究者可以通过访问其官方网站获取数据。数据集通常用于训练和验证深度学习模型，尤其是在胸部X光片的自动诊断领域。研究者可以根据需要下载特定类别的数据，并利用提供的标注信息进行模型训练。此外，数据集还支持多种格式，方便与现有的深度学习框架集成。

背景与挑战

背景概述

CheXpert数据集由斯坦福大学机器学习小组于2019年发布，旨在通过大规模的胸部X光影像数据推动医学影像分析领域的发展。该数据集包含224,316张来自65,240名患者的胸部X光影像，并通过放射学报告自动生成标签。CheXpert的发布为医学影像的自动化诊断提供了重要的数据支持，尤其是在胸部疾病的检测与分类方面，极大地推动了深度学习在医学影像领域的应用。该数据集的出现不仅填补了大规模标注医学影像数据的空白，还为研究人员提供了丰富的实验平台，促进了医学影像分析算法的创新与优化。

当前挑战

CheXpert数据集在解决胸部X光影像分类问题时面临多重挑战。首先，放射学报告的自动标签生成过程存在噪声，可能导致标签不准确，影响模型的训练效果。其次，数据集中存在类别不平衡问题，某些疾病的样本数量较少，增加了模型训练的难度。此外，胸部X光影像的复杂性和多样性也对模型的泛化能力提出了更高的要求。在数据构建过程中，如何确保数据的隐私性与安全性，以及如何处理大规模数据的存储与计算资源需求，也是构建该数据集时面临的重要挑战。

常用场景

经典使用场景

CheXpert数据集在医学影像领域中被广泛用于胸部X光片的自动诊断研究。其庞大的数据量和详细的标签信息使得研究人员能够开发出高效的深度学习模型，用于检测和分类多种胸部疾病，如肺炎、肺气肿和肺不张等。这些模型在临床实践中具有重要的辅助诊断价值。

实际应用

在实际应用中，CheXpert数据集被用于开发临床决策支持系统，帮助医生快速准确地诊断胸部疾病。这些系统可以集成到医院的影像系统中，实时分析患者的X光片，提供诊断建议，从而减轻医生的工作负担，提高诊断的准确性和效率。

衍生相关工作

基于CheXpert数据集，许多经典的研究工作得以展开。例如，斯坦福大学的研究团队开发了基于深度学习的胸部X光片自动诊断系统，该系统在多个国际竞赛中取得了优异的成绩。此外，该数据集还催生了许多关于医学影像分析的新算法和模型，推动了该领域的技术进步。

以上内容由遇见数据集搜集并总结生成