NIH Chest X-ray Dataset

github2020-11-07 更新2024-05-31 收录

下载链接：

https://github.com/rezacsedu/NIH-Chest-X-ray-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含112,120张带有疾病标签的X光图像，来自30,805名独特患者。标签是通过自然语言处理从相关的放射学报告中提取的，预计准确率超过90%，适用于弱监督学习。

This dataset comprises 112,120 X-ray images with disease labels, sourced from 30,805 unique patients. The labels were extracted from associated radiology reports using natural language processing, with an estimated accuracy exceeding 90%, making it suitable for weakly supervised learning.

创建时间：

2020-05-20

原始信息汇总

NIH-Chest-X-ray-Dataset 概述

数据集描述

数据集内容

图像数量：包含112,120张X光图像。
患者数量：来自30,805名独特患者。
疾病标签：图像附带疾病标签，标签通过自然语言处理（NLP）从相关放射学报告中提取，预计准确率超过90%。

数据集用途

用于弱监督学习，旨在通过计算机辅助检测和诊断（CAD）提高临床诊断的准确性。

数据限制

标签准确性：由于标签为NLP提取，可能存在错误标签，但总体准确率估计超过90%。
疾病区域边界框：数量非常有限。
放射学报告：不公开共享。

数据集目标

使用简单模型在Keras中对X光图像进行分类，并提供如何使用flow_from_dataframe处理更复杂数据集的示例。

搜集汇总

数据集介绍

构建方式

NIH Chest X-ray Dataset的构建过程依托于112,120张X光片，这些影像来自30,805名独特的患者。为了生成这些影像的疾病标签，研究者采用了自然语言处理技术，从相关的放射学报告中提取疾病分类信息。标签的生成过程主要依赖于文本挖掘，其准确率预计超过90%，适用于弱监督学习。尽管原始放射学报告未公开，但相关标签生成方法的详细描述可在公开的研究论文中找到。

特点

该数据集的特点在于其规模庞大且标签丰富，涵盖了多种胸部疾病的分类信息。由于标签是通过自然语言处理技术自动生成的，尽管存在一定的误差，但其准确率较高，适合用于训练深度学习模型。此外，数据集还提供了少量的疾病区域边界框信息，尽管数量有限，但仍为局部病灶的定位研究提供了基础。

使用方法

NIH Chest X-ray Dataset的使用方法主要集中在胸部X光片的疾病分类任务上。用户可以通过Keras等深度学习框架，利用flow_from_dataframe方法处理数据，并构建分类模型。由于数据集的多标签特性，建议使用二元交叉熵作为损失函数。此外，用户可以通过手动标注或进一步优化标签，提升模型的性能，并鼓励在研究中分享更新后的标签或新的边界框信息。

背景与挑战

背景概述

NIH Chest X-ray Dataset 是由美国国立卫生研究院（NIH）于2017年发布的一个大规模胸部X光影像数据集，旨在推动计算机辅助检测与诊断（CAD）技术在医学影像领域的应用。该数据集包含来自30,805名患者的112,120张X光影像，涵盖了多种胸部疾病的标注信息。这些标注通过自然语言处理（NLP）技术从放射学报告中提取，准确率预计超过90%。该数据集的发布填补了公开胸部X光影像数据集稀缺的空白，为研究人员提供了宝贵的资源，推动了基于弱监督学习的胸部疾病分类与定位研究。

当前挑战

尽管NIH Chest X-ray Dataset在规模和标注质量上取得了显著进展，但仍面临诸多挑战。首先，数据集中的标注是通过NLP技术自动提取的，虽然准确率较高，但仍可能存在错误标注，这对模型的训练和评估提出了更高的要求。其次，数据集中疾病区域的边界框标注非常有限，限制了基于定位的研究。此外，由于原始放射学报告未公开，研究人员无法直接验证标注的准确性，这进一步增加了数据使用的复杂性。最后，尽管数据集规模较大，但如何在实际临床环境中实现高精度的计算机辅助诊断仍是一个亟待解决的问题。

常用场景

经典使用场景

NIH Chest X-ray Dataset 在医学影像分析领域具有广泛的应用，尤其是在胸部X光片的自动诊断和疾病分类方面。该数据集通过提供大量标注的X光图像，为研究人员开发基于深度学习的计算机辅助诊断（CAD）系统提供了宝贵资源。经典的使用场景包括利用卷积神经网络（CNN）对胸部X光片进行多标签分类，识别多种胸部疾病，如肺炎、肺结节和胸腔积液等。

衍生相关工作

该数据集衍生了许多经典的研究工作，其中最著名的是CheXNet模型，该模型通过深度学习技术实现了对胸部X光片的高精度疾病分类。此外，基于该数据集的研究还推动了医学影像分析领域的多项技术进步，如弱监督学习在医学影像中的应用、多标签分类算法的优化等。这些工作不仅提升了胸部X光片的自动诊断能力，还为其他医学影像数据集的研究提供了参考。

数据集最近研究