five

NIH Chest X-ray Dataset|医学影像数据集|机器学习数据集

收藏
github2024-02-21 更新2024-05-31 收录
医学影像
机器学习
下载链接:
https://github.com/anshuak100/NIH-Chest-X-ray-Dataset
下载链接
链接失效反馈
资源简介:
NIH胸部X光数据集包含来自30,805名独特患者的112,120张带有疾病标签的X光图像。数据集的标签通过自然语言处理从相关放射学报告中提取,预计准确率超过90%,适用于弱监督学习。
创建时间:
2018-12-31
原始信息汇总

NIH-Chest-X-ray-Dataset

数据集概述

数据集组成

  • 包含112,120张X光图像,图像带有疾病标签。
  • 图像来自30,805名独特的患者。

标签生成

  • 使用自然语言处理(NLP)从相关放射学报告中提取疾病分类标签。
  • 标签准确性预计超过90%,适用于弱监督学习。

数据限制

  • 图像标签通过NLP提取,可能存在错误标签,但NLP标签准确性估计超过90%。
  • 疾病区域边界框数量非常有限(参考BBox_list_2017.csv)。
  • 胸部X光放射学报告不公开共享。

目标

  • 使用简单模型在Keras中对X光图像进行分类,特别是如何使用flow_from_dataframe处理更混乱的数据集。
AI搜集汇总
数据集介绍
main_image_url
构建方式
NIH Chest X-ray Dataset的构建过程体现了大规模医学影像数据集在临床诊断中的重要性。该数据集包含来自30,805名患者的112,120张胸部X光图像,每张图像均附有疾病标签。这些标签通过自然语言处理技术从相关的放射学报告中提取,确保了标签的准确性超过90%。尽管原始放射学报告未公开,但详细的标注过程在公开论文《ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases》中有详细描述。
特点
NIH Chest X-ray Dataset以其规模庞大和标注精确而著称。数据集涵盖了多种胸部疾病,适用于弱监督学习任务。尽管标签通过自然语言处理技术自动生成,但其准确率超过90%,为医学影像分析提供了可靠的基础。然而,数据集也存在一些局限性,例如疾病区域的边界框数量有限,且原始放射学报告未公开。这些特点使得该数据集在推动计算机辅助诊断技术发展的同时,也为后续研究提供了改进的空间。
使用方法
NIH Chest X-ray Dataset的使用方法主要围绕医学影像分类任务展开。用户可以通过Keras框架中的flow_from_dataframe函数处理数据集,构建简单的分类模型。由于数据集涉及多标签问题,建议使用binary_crossentropy作为损失函数。此外,用户还可以通过手动标注或更新现有标签,进一步提升数据集的实用性和准确性。该数据集为研究人员提供了一个强大的工具,用于探索和开发基于胸部X光图像的计算机辅助诊断技术。
背景与挑战
背景概述
NIH Chest X-ray Dataset由美国国立卫生研究院(NIH)于2017年发布,旨在推动胸部X光影像的计算机辅助检测与诊断(CAD)研究。该数据集由112,120张X光影像组成,涵盖30,805名患者,并通过自然语言处理技术从放射报告中提取疾病标签,标签准确率预计超过90%。作为当时最大的公开胸部X光影像数据集,它填补了该领域数据稀缺的空白,为弱监督学习提供了重要资源。其发布显著推动了胸部疾病自动诊断技术的发展,并在医学影像分析领域产生了广泛影响。
当前挑战
NIH Chest X-ray Dataset在解决胸部X光影像自动诊断问题时面临多重挑战。首先,尽管标签准确率较高,但其通过自然语言处理自动提取的方式仍可能导致部分错误标签,影响模型训练的可靠性。其次,数据集缺乏详细的疾病区域边界框标注,限制了病灶定位研究的进展。此外,原始放射报告未公开,进一步增加了数据验证和扩展的难度。在构建过程中,研究人员面临大规模影像标注资源匮乏的挑战,不得不依赖自动化技术,这也为数据质量的控制带来了潜在风险。
常用场景
经典使用场景
在医学影像分析领域,NIH Chest X-ray Dataset被广泛用于开发和验证计算机辅助检测与诊断(CAD)系统。该数据集包含大量标注的胸部X光片,为研究人员提供了丰富的训练和测试资源,特别是在多标签分类和疾病定位任务中,其应用尤为突出。通过深度学习模型,研究人员能够利用该数据集进行疾病自动检测,显著提升了诊断的准确性和效率。
实际应用
在实际医疗场景中,NIH Chest X-ray Dataset被用于开发临床辅助诊断工具,帮助医生快速识别胸部疾病,如肺炎、肺结节等。通过基于该数据集训练的模型,医疗机构能够提高诊断效率,减少误诊率,特别是在资源匮乏的地区,这种自动化诊断工具的应用具有重要的现实意义。
衍生相关工作
NIH Chest X-ray Dataset的发布催生了一系列经典研究工作,如CheXNet等深度学习模型。这些模型在疾病分类和定位任务中取得了显著成果,并推动了医学影像分析领域的技术进步。此外,该数据集还激发了更多关于弱监督学习和多标签分类的研究,为后续的学术探索提供了坚实的基础。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

基于站点观测的中国1km土壤湿度日尺度数据集(2000-2022)

本研究提供了中国范围1km高质量的土壤湿度数据集-SMCI1.0(Soil Moisture of China by in situ data, version 1.0),SMCI1.0是包含2000-2022年、日尺度、以10厘米为间隔10层深度(10-100cm)的高时空分辨率土壤湿度,数据单位为0.001m³/m³,缺失值为-999,投影为WGS1984。该数据集是以中国气象局提供的1,648个站点观测10层土壤湿度作为基准,使用ERA5_Land气象强迫数据、叶面积指数(LAI)、土地覆盖类型(Landtypes)、地形(DEM)和土壤特性(Soil properties)作为协变量,通过机器学习方式获得。本研究进行了两组实验以验证SMCI1.0的精度,时间尺度上:ubRMSE为0.041-0.052,R为0.883-0.919;空间尺度上:ubRMSE为0.045-0.051,R为0.866-0.893。 由于SMCI1.0是基于实地观测的土壤湿度,它可以作为现有基于模型和卫星数据集的有效补充。该数据产品可用于各种水文、气象、生态分析和建模,尤其在需要高质量、高分辨率土壤湿度的应用上至关重要。有关数据集的引用及详细描述,请阅读说明文档。为便于使用,本研究提供了两种不同分辨率的版本:30 秒(~1km)和0.1度(~9km)。

国家青藏高原科学数据中心 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

长江干流实时水位观测数据集(2024年)

该数据集为长江干流主要水文站实时水位观测数据集,包含了汉口、户口、九江、宜昌等16个水文站点的逐小时或逐日水位观测数据。 该数据集包含3个excel表格文件,长江干流站点.xls,逐日水位.xlsx,逐小时水位.xlsx。

国家地球系统科学数据中心 收录