five

NIH Chest X-ray Dataset|医学影像数据集|机器学习数据集

收藏
github2024-02-21 更新2024-05-31 收录
医学影像
机器学习
下载链接:
https://github.com/anshuak100/NIH-Chest-X-ray-Dataset
下载链接
链接失效反馈
资源简介:
NIH胸部X光数据集包含来自30,805名独特患者的112,120张带有疾病标签的X光图像。数据集的标签通过自然语言处理从相关放射学报告中提取,预计准确率超过90%,适用于弱监督学习。
创建时间:
2018-12-31
原始信息汇总

NIH-Chest-X-ray-Dataset

数据集概述

数据集组成

  • 包含112,120张X光图像,图像带有疾病标签。
  • 图像来自30,805名独特的患者。

标签生成

  • 使用自然语言处理(NLP)从相关放射学报告中提取疾病分类标签。
  • 标签准确性预计超过90%,适用于弱监督学习。

数据限制

  • 图像标签通过NLP提取,可能存在错误标签,但NLP标签准确性估计超过90%。
  • 疾病区域边界框数量非常有限(参考BBox_list_2017.csv)。
  • 胸部X光放射学报告不公开共享。

目标

  • 使用简单模型在Keras中对X光图像进行分类,特别是如何使用flow_from_dataframe处理更混乱的数据集。
AI搜集汇总
数据集介绍
main_image_url
构建方式
NIH Chest X-ray Dataset的构建过程体现了大规模医学影像数据集在临床诊断中的重要性。该数据集包含来自30,805名患者的112,120张胸部X光图像,每张图像均附有疾病标签。这些标签通过自然语言处理技术从相关的放射学报告中提取,确保了标签的准确性超过90%。尽管原始放射学报告未公开,但详细的标注过程在公开论文《ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases》中有详细描述。
特点
NIH Chest X-ray Dataset以其规模庞大和标注精确而著称。数据集涵盖了多种胸部疾病,适用于弱监督学习任务。尽管标签通过自然语言处理技术自动生成,但其准确率超过90%,为医学影像分析提供了可靠的基础。然而,数据集也存在一些局限性,例如疾病区域的边界框数量有限,且原始放射学报告未公开。这些特点使得该数据集在推动计算机辅助诊断技术发展的同时,也为后续研究提供了改进的空间。
使用方法
NIH Chest X-ray Dataset的使用方法主要围绕医学影像分类任务展开。用户可以通过Keras框架中的flow_from_dataframe函数处理数据集,构建简单的分类模型。由于数据集涉及多标签问题,建议使用binary_crossentropy作为损失函数。此外,用户还可以通过手动标注或更新现有标签,进一步提升数据集的实用性和准确性。该数据集为研究人员提供了一个强大的工具,用于探索和开发基于胸部X光图像的计算机辅助诊断技术。
背景与挑战
背景概述
NIH Chest X-ray Dataset由美国国立卫生研究院(NIH)于2017年发布,旨在推动胸部X光影像的计算机辅助检测与诊断(CAD)研究。该数据集由112,120张X光影像组成,涵盖30,805名患者,并通过自然语言处理技术从放射报告中提取疾病标签,标签准确率预计超过90%。作为当时最大的公开胸部X光影像数据集,它填补了该领域数据稀缺的空白,为弱监督学习提供了重要资源。其发布显著推动了胸部疾病自动诊断技术的发展,并在医学影像分析领域产生了广泛影响。
当前挑战
NIH Chest X-ray Dataset在解决胸部X光影像自动诊断问题时面临多重挑战。首先,尽管标签准确率较高,但其通过自然语言处理自动提取的方式仍可能导致部分错误标签,影响模型训练的可靠性。其次,数据集缺乏详细的疾病区域边界框标注,限制了病灶定位研究的进展。此外,原始放射报告未公开,进一步增加了数据验证和扩展的难度。在构建过程中,研究人员面临大规模影像标注资源匮乏的挑战,不得不依赖自动化技术,这也为数据质量的控制带来了潜在风险。
常用场景
经典使用场景
在医学影像分析领域,NIH Chest X-ray Dataset被广泛用于开发和验证计算机辅助检测与诊断(CAD)系统。该数据集包含大量标注的胸部X光片,为研究人员提供了丰富的训练和测试资源,特别是在多标签分类和疾病定位任务中,其应用尤为突出。通过深度学习模型,研究人员能够利用该数据集进行疾病自动检测,显著提升了诊断的准确性和效率。
实际应用
在实际医疗场景中,NIH Chest X-ray Dataset被用于开发临床辅助诊断工具,帮助医生快速识别胸部疾病,如肺炎、肺结节等。通过基于该数据集训练的模型,医疗机构能够提高诊断效率,减少误诊率,特别是在资源匮乏的地区,这种自动化诊断工具的应用具有重要的现实意义。
衍生相关工作
NIH Chest X-ray Dataset的发布催生了一系列经典研究工作,如CheXNet等深度学习模型。这些模型在疾病分类和定位任务中取得了显著成果,并推动了医学影像分析领域的技术进步。此外,该数据集还激发了更多关于弱监督学习和多标签分类的研究,为后续的学术探索提供了坚实的基础。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

糖尿病预测数据集

糖尿病相关的医学研究或者健康数据

AI_Studio 收录

Agricultural Pests Dataset

Agricultural Pests Classification

kaggle 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。

github 收录