NIH Chest X-ray Dataset|医学影像数据集|机器学习数据集

github2024-02-21 更新2024-05-31 收录

下载链接：

https://github.com/anshuak100/NIH-Chest-X-ray-Dataset

下载链接

链接失效反馈

资源简介：

NIH胸部X光数据集包含来自30,805名独特患者的112,120张带有疾病标签的X光图像。数据集的标签通过自然语言处理从相关放射学报告中提取，预计准确率超过90%，适用于弱监督学习。

创建时间：

2018-12-31

原始信息汇总

NIH-Chest-X-ray-Dataset

数据集概述

数据集组成

包含112,120张X光图像，图像带有疾病标签。
图像来自30,805名独特的患者。

标签生成

使用自然语言处理（NLP）从相关放射学报告中提取疾病分类标签。
标签准确性预计超过90%，适用于弱监督学习。

数据限制

图像标签通过NLP提取，可能存在错误标签，但NLP标签准确性估计超过90%。
疾病区域边界框数量非常有限（参考BBox_list_2017.csv）。
胸部X光放射学报告不公开共享。

目标

使用简单模型在Keras中对X光图像进行分类，特别是如何使用flow_from_dataframe处理更混乱的数据集。

AI搜集汇总

数据集介绍

构建方式

NIH Chest X-ray Dataset的构建过程体现了大规模医学影像数据集在临床诊断中的重要性。该数据集包含来自30,805名患者的112,120张胸部X光图像，每张图像均附有疾病标签。这些标签通过自然语言处理技术从相关的放射学报告中提取，确保了标签的准确性超过90%。尽管原始放射学报告未公开，但详细的标注过程在公开论文《ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases》中有详细描述。

特点

NIH Chest X-ray Dataset以其规模庞大和标注精确而著称。数据集涵盖了多种胸部疾病，适用于弱监督学习任务。尽管标签通过自然语言处理技术自动生成，但其准确率超过90%，为医学影像分析提供了可靠的基础。然而，数据集也存在一些局限性，例如疾病区域的边界框数量有限，且原始放射学报告未公开。这些特点使得该数据集在推动计算机辅助诊断技术发展的同时，也为后续研究提供了改进的空间。

使用方法

NIH Chest X-ray Dataset的使用方法主要围绕医学影像分类任务展开。用户可以通过Keras框架中的flow_from_dataframe函数处理数据集，构建简单的分类模型。由于数据集涉及多标签问题，建议使用binary_crossentropy作为损失函数。此外，用户还可以通过手动标注或更新现有标签，进一步提升数据集的实用性和准确性。该数据集为研究人员提供了一个强大的工具，用于探索和开发基于胸部X光图像的计算机辅助诊断技术。

背景与挑战

背景概述

NIH Chest X-ray Dataset由美国国立卫生研究院（NIH）于2017年发布，旨在推动胸部X光影像的计算机辅助检测与诊断（CAD）研究。该数据集由112,120张X光影像组成，涵盖30,805名患者，并通过自然语言处理技术从放射报告中提取疾病标签，标签准确率预计超过90%。作为当时最大的公开胸部X光影像数据集，它填补了该领域数据稀缺的空白，为弱监督学习提供了重要资源。其发布显著推动了胸部疾病自动诊断技术的发展，并在医学影像分析领域产生了广泛影响。

当前挑战

NIH Chest X-ray Dataset在解决胸部X光影像自动诊断问题时面临多重挑战。首先，尽管标签准确率较高，但其通过自然语言处理自动提取的方式仍可能导致部分错误标签，影响模型训练的可靠性。其次，数据集缺乏详细的疾病区域边界框标注，限制了病灶定位研究的进展。此外，原始放射报告未公开，进一步增加了数据验证和扩展的难度。在构建过程中，研究人员面临大规模影像标注资源匮乏的挑战，不得不依赖自动化技术，这也为数据质量的控制带来了潜在风险。

常用场景

经典使用场景

在医学影像分析领域，NIH Chest X-ray Dataset被广泛用于开发和验证计算机辅助检测与诊断（CAD）系统。该数据集包含大量标注的胸部X光片，为研究人员提供了丰富的训练和测试资源，特别是在多标签分类和疾病定位任务中，其应用尤为突出。通过深度学习模型，研究人员能够利用该数据集进行疾病自动检测，显著提升了诊断的准确性和效率。

实际应用

在实际医疗场景中，NIH Chest X-ray Dataset被用于开发临床辅助诊断工具，帮助医生快速识别胸部疾病，如肺炎、肺结节等。通过基于该数据集训练的模型，医疗机构能够提高诊断效率，减少误诊率，特别是在资源匮乏的地区，这种自动化诊断工具的应用具有重要的现实意义。

衍生相关工作

NIH Chest X-ray Dataset的发布催生了一系列经典研究工作，如CheXNet等深度学习模型。这些模型在疾病分类和定位任务中取得了显著成果，并推动了医学影像分析领域的技术进步。此外，该数据集还激发了更多关于弱监督学习和多标签分类的研究，为后续的学术探索提供了坚实的基础。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？