nih-chest-xray-224
收藏Hugging Face2025-08-22 更新2025-08-23 收录
下载链接:
https://huggingface.co/datasets/deeshan-ai/nih-chest-xray-224
下载链接
链接失效反馈官方服务:
资源简介:
这是一个医学影像诊断数据集,包含15种肺部疾病相关的标签,如肺不张、心脏肥大等。数据集分为训练集、验证集和测试集,共包含23272906个字节的数据,适用于医学影像分析和疾病诊断模型训练。
This is a medical image diagnosis dataset containing 15 types of labels related to pulmonary diseases, such as atelectasis and cardiomegaly. The dataset is split into training, validation and test sets, with a total data size of 23,272,906 bytes. It is suitable for training models for medical image analysis and disease diagnosis.
创建时间:
2025-08-22
原始信息汇总
NIH Chest X-ray 数据集(224x224版本)概述
数据集基本信息
- 数据来源:美国国立卫生研究院(NIH)胸部X光影像
- 图像尺寸:224x224像素
- 总样本量:115,790张图像
- 总数据大小:23.27 MB
- 下载大小:1.54 MB
数据集结构
数据划分
- 训练集:81,150个样本(16.31 MB)
- 验证集:17,382个样本(3.49 MB)
- 测试集:17,258个样本(3.47 MB)
特征字段
疾病标签(二分类标注,int64类型)
- Atelectasis(肺不张)
- Cardiomegaly(心脏肥大)
- Consolidation(实变)
- Edema(水肿)
- Effusion(积液)
- Emphysema(肺气肿)
- Fibrosis(纤维化)
- Hernia(疝)
- Infiltration(浸润)
- Mass(肿块)
- No Finding(未见异常)
- Nodule(结节)
- Pleural_Thickening(胸膜增厚)
- Pneumonia(肺炎)
- Pneumothorax(气胸)
元数据字段
- Full_Path(完整路径,string类型)
- Finding_Labels(发现标签,string类型)
数据格式
- 数据文件按划分存储于不同路径:
- 训练集:
data/train-* - 验证集:
data/val-* - 测试集:
data/test-*
- 训练集:
搜集汇总
数据集介绍

构建方式
在医学影像分析领域,nih-chest-xray-224数据集源自美国国立卫生研究院临床中心,通过专业放射科医师对胸部X光图像进行多轮标注构建而成。每张图像被统一预处理为224x224像素分辨率,并对应14种常见胸部疾病标签及正常类别,采用独热编码确保标注一致性,最终划分为训练集、验证集和测试集以支持模型开发与评估。
特点
该数据集涵盖肺不张、心脏肥大等14种胸部病理特征及正常样本,具有多标签标注体系,单个样本可能同时存在多种病理表现。数据集规模包含逾11.5万张标准尺寸图像,其标注经过放射专家交叉验证,兼具临床可靠性与机器学习适用性,为胸部X光影像的自动诊断研究提供了高质量基准数据。
使用方法
研究者可通过加载标准化Tensor格式数据,直接输入卷积神经网络进行多标签分类任务训练。建议采用加权损失函数处理类别不平衡问题,并利用验证集进行超参数调优。测试集可用于评估模型在肺不张、气胸等特定疾病上的泛化性能,为临床辅助诊断系统开发提供实证基础。
背景与挑战
背景概述
NIH Chest X-ray数据集由美国国立卫生研究院于2017年推出,旨在推动医学影像分析领域的深度学习研究。该数据集包含超过十万张经过专业标注的胸部X光影像,涵盖14种常见胸部疾病标签,为计算机辅助诊断系统提供了重要的训练与验证资源。其发布显著促进了胸片异常检测算法的开发,对放射学人工智能应用产生了深远影响,成为医学影像分析领域的重要基准数据集之一。
当前挑战
该数据集主要解决胸部X光影像的多标签分类挑战,包括病变区域定位和疾病共现性识别等复杂问题。构建过程中面临标注一致性保障的难题,需要多位放射科专家进行交叉验证以确保标签准确性。影像质量差异和疾病表现的不典型性进一步增加了数据清洗和标准化的复杂度,同时需要处理患者隐私保护与数据脱敏的技术挑战。
常用场景
经典使用场景
在医学影像分析领域,nih-chest-xray-224数据集被广泛用于胸部X光图像的自动诊断研究。该数据集包含超过十万张标注图像,涵盖十余种常见胸部疾病,为深度学习模型提供了丰富的训练样本。研究人员通常利用该数据集构建卷积神经网络,实现多标签分类任务,探索模型在肺结节、胸腔积液等病变检测中的性能表现。
解决学术问题
该数据集有效解决了医学影像分析中标注数据稀缺的瓶颈问题,为计算机辅助诊断研究提供了标准化基准。通过提供大规模高质量标注数据,显著推动了多病症联合检测、弱监督学习等研究方向的发展,促进了医学影像人工智能算法的可重复性与可比性研究,对放射科医生工作负荷减轻和诊断准确性提升具有重要学术价值。
衍生相关工作
该数据集催生了众多经典研究,如CheXNet等深度神经网络架构,这些模型在疾病检测准确率上达到甚至超越专业放射科医师水平。后续研究进一步拓展到异常定位、可解释性分析等领域,衍生出Grad-CAM等可视化技术。这些工作不仅推动了医学影像分析技术的发展,还为跨模态医学数据融合研究提供了重要基础。
以上内容由遇见数据集搜集并总结生成



