five

CheXpert

收藏
arXiv2025-09-30 收录
下载链接:
https://stanfordmlgroup.github.io/competitions/chexpert/
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是为了训练Dirichlet变分自编码器(DirVAE)而使用的胸部X光图像集,旨在学习解耦的多标签分类的潜在表示。CheXpert数据集包含了超过20万张胸部X光图像,这些图像带有14种疾病类别的标签,使其成为在放射学领域开发和评估机器学习模型的一个全面资源。该数据集的任务是对胸部X光图像进行多标签分类。

This dataset is a chest X-ray image collection used for training Dirichlet Variational Autoencoders (DirVAE), with the goal of learning disentangled latent representations for multi-label classification. The CheXpert dataset contains over 200,000 chest X-ray images labeled with 14 disease categories, making it a comprehensive resource for developing and evaluating machine learning models in the radiology domain. The core task of this dataset is multi-label classification for chest X-ray images.
提供机构:
Stanford University
搜集汇总
数据集介绍
main_image_url
构建方式
在医学影像分析领域,构建高质量标注数据集是推动深度学习模型发展的关键。CheXpert数据集的构建始于对斯坦福医院2002年至2017年间产生的胸部X光影像及其对应放射学报告的回顾性收集,共涵盖65,240名患者的224,316张影像。研究团队设计了一套基于规则的自动化标注系统,该系统通过三个精密阶段——提及提取、提及分类与提及聚合——从放射学报告的自由文本中自动识别14种常见胸部观察结果,并创新性地引入了不确定性标签,以捕捉放射科医师诊断中固有的模糊性。这一过程不仅依赖大量由认证放射科医师手动整理的短语列表,还结合了自然语言处理技术,如通用依赖解析,以确保标注的准确性与一致性。
特点
CheXpert数据集的显著特点在于其规模宏大与标注精细。该数据集包含22万余张胸部X光影像,覆盖14种临床相关的观察结果,如心脏肥大、肺水肿与胸腔积液等,每种观察均被标注为阳性、阴性或不确定状态。其核心创新在于系统性地整合了不确定性标签,这反映了真实临床实践中放射学解读的复杂性,为模型训练提供了更丰富的监督信号。此外,数据集配备了由多名认证放射科医师独立标注的验证集与测试集,建立了可靠的参考标准,并提供了专家性能比较基准,从而为胸部X光影像解读模型的稳健评估奠定了坚实基础。
使用方法
CheXpert数据集可作为胸部X光影像自动解读模型的训练与评估基准。研究人员可利用其大规模标注数据训练卷积神经网络,探索不同不确定性标签处理策略——如忽略、映射为二元标签或视为独立类别——以优化模型对多种病理的检测性能。数据集的验证集与测试集均附有放射科医师共识标注,支持模型性能的客观验证,并可实现与人类专家水平的直接比较。此外,数据集支持多视图影像输入与概率输出,适用于疾病定位、分类及不确定性量化等任务,为推进医学影像人工智能研究提供了标准化、高可靠性的实验平台。
背景与挑战
背景概述
CheXpert数据集由斯坦福大学研究团队于2019年创建,旨在推动胸部X光影像的自动化解读研究。该数据集包含224,316张来自65,240名患者的胸部X光影像,并标注了14种常见胸部观察结果,如肺不张、心脏肥大和胸腔积液等。其核心创新在于引入了不确定性标签,以捕捉放射科报告中固有的诊断模糊性,从而更真实地反映临床实践中的挑战。CheXpert通过提供放射科医生标注的验证集和测试集,为深度学习模型在医学影像分析领域的性能评估设立了新的基准,显著促进了胸部疾病检测算法的开发与验证。
当前挑战
CheXpert数据集致力于解决胸部X光影像的多标签分类问题,其核心挑战在于如何处理放射科报告中普遍存在的不确定性表述,例如“可能为肺不张”或“无法排除胸腔积液”。这些模糊标签在训练深度学习模型时可能导致性能偏差,需探索有效的标签利用策略,如将不确定性映射为独立类别或进行半监督学习。在数据构建过程中,主要挑战源于从自由文本放射科报告中自动提取结构化标签,这需要设计高精度的规则系统来准确识别否定、不确定及肯定表述,并应对医学术语多样性和句法复杂性带来的标注困难。
常用场景
经典使用场景
在医学影像分析领域,CheXpert数据集被广泛用于开发和验证胸部X光片的自动解读模型。该数据集包含超过22万张标注了14种常见胸部观察结果的放射影像,其独特的“不确定”标签设计使得研究者能够探索如何处理临床报告中的模糊性。经典使用场景涉及训练卷积神经网络,如DenseNet121,以多标签分类任务预测病理概率,并通过ROC曲线与放射科医生表现进行对比评估,尤其在心脏肥大、肺水肿和胸腔积液等关键病理检测上展现出卓越性能。
衍生相关工作
CheXpert数据集催生了多项经典研究工作,推动了胸部放射影像分析领域的创新。例如,基于该数据集的模型比较研究深入探讨了不确定性标签的处理策略,如忽略、二值映射或三分类方法。衍生工作还包括开发多标签分类架构、半监督学习技术以及模型校准方法。此外,该数据集常被用作基准测试,与ChestX-ray14等现有数据集对比,促进了模型性能的标准化评估。这些研究不仅扩展了深度学习在医学影像中的应用边界,还为后续数据集如MIMIC-CXR的构建提供了重要参考。
数据集最近研究
最新研究方向
在医学影像分析领域,CheXpert数据集作为胸部X光片的大规模标注资源,其前沿研究聚焦于不确定性标签的深度利用与模型泛化能力的提升。当前,研究者们正探索如何通过多任务学习框架,将不确定性标签与半监督学习策略相结合,以应对临床报告中常见的模糊表述,从而增强模型对边缘病例的判别精度。此外,结合视觉-语言预训练技术,该数据集被用于开发跨模态诊断系统,旨在实现从影像到文本报告的端到端生成,推动自动化诊断向更高层次的临床决策支持演进。这些进展不仅提升了胸部疾病的检测效率,也为全球医疗资源不均背景下的远程筛查提供了可靠的技术基石。
相关研究论文
  • 1
    CheXpert: A Large Chest Radiograph Dataset with Uncertainty Labels and Expert Comparison斯坦福大学 · 2019年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作