CheXpert

Name: CheXpert
Creator: 斯坦福大学
Published: 2019-01-22 02:41:59
License: 暂无描述

arXiv2019-01-22 更新2024-06-21 收录

下载链接：

https://stanfordmlgroup.github.io/competitions/chexpert

下载链接

链接失效反馈

官方服务：

资源简介：

CheXpert是由斯坦福大学开发的大型胸部放射图像数据集，包含224,316张来自65,240名患者的图像。该数据集设计了一个标签器来自动检测放射学报告中的14种观察结果，捕捉放射图像解释中的不确定性。数据集的创建旨在通过提供大规模、高质量的标注数据，推动深度学习技术在医学影像任务中达到专家级表现。CheXpert特别关注数据集中的不确定性标签，并研究了将这些标签纳入训练过程的不同方法。该数据集的应用领域包括自动化胸部放射图像解释，旨在提高工作流程优先级、临床决策支持和大规模筛查等方面的效率。

CheXpert is a large-scale chest radiography dataset developed by Stanford University, comprising 224,316 images from 65,240 unique patients. The dataset features a labeling framework that automatically identifies 14 radiographic findings from corresponding radiology reports, while capturing the uncertainty inherent in radiological image interpretation. It was developed to advance deep learning-based technologies toward expert-level performance in medical imaging tasks by providing large-scale, high-quality annotated data. CheXpert places special emphasis on uncertain labels within the dataset, and investigates various approaches to incorporating these labels into the model training pipeline. Its application domains include automated chest radiography interpretation, with the goal of improving efficiency in workflow prioritization, clinical decision support, large-scale screening and other related clinical scenarios.

提供机构：

斯坦福大学

创建时间：

2019-01-22

搜集汇总

数据集介绍

构建方式

CheXpert 数据集的构建方式包括从斯坦福医院收集胸部 X 光片及其相关放射学报告，并设计了一种标签器来自动检测报告中的 14 个常见观察结果。标签器通过三个阶段进行：提及提取、提及分类和提及聚合。提及提取阶段从放射学报告的印象部分提取观察结果的提及；提及分类阶段将提及分类为否定、不确定或肯定；提及聚合阶段根据提及的分类为每个观察结果生成最终标签。数据集包含 224,316 张胸部 X 光片，标注了 65,240 名患者的 14 个常见胸部 X 光片观察结果。

特点

CheXpert 数据集的特点在于其包含大量胸部 X 光片，并具有不确定性标签和放射科医师标注的参考标准评估集。数据集涵盖了 14 个常见观察结果，包括 12 种病理情况以及“支持设备”和“无发现”观察结果。数据集的设计旨在帮助开发和应用胸部 X 光片解读模型，以提高医疗保健的获取和交付。

使用方法

使用 CheXpert 数据集时，研究者可以探索不同的方法来处理不确定性标签，并将这些标签纳入模型的训练过程中。数据集提供了放射科医师标注的验证集和测试集，可以作为参考标准来评估不同算法的性能。研究者可以使用该数据集来开发胸部 X 光片解读模型，并通过验证集和测试集来评估模型的性能。

背景与挑战

背景概述

CheXpert数据集是一组庞大的胸部X光片数据集，由斯坦福大学的计算机科学系、医学系和放射学系的研究人员于2019年创建。该数据集包含了224,316张来自65,240名患者的胸部X光片，并标注了14种常见观察结果。CheXpert旨在通过深度学习方法在胸部X光片解读方面达到专家级水平，从而为医疗保健提供实质性益处，包括改善工作流程优先级、临床决策支持和大规模筛查等。该数据集的创建为胸部X光片解读模型提供了强大的参考标准和专家评分，为研究人员提供了一个标准基准，以评估胸部X光片解读模型的表现。

当前挑战

CheXpert数据集面临的挑战包括：1)解决领域问题，即从多视图胸部X光片中预测14种不同观察结果的概率；2)构建过程中所遇到的挑战，包括从自由文本放射学报告中提取观察结果，并捕获放射学报告中固有的不确定性。为了应对这些挑战，研究人员设计了一种标签器，可以从自由文本放射学报告中提取观察结果，并使用不确定性标签捕获报告中的不确定性。此外，研究人员还探讨了不同的方法来处理不确定性标签，并验证了它们在评估集上的表现。通过在具有强地面真相的测试集上测试，研究人员发现他们最好的模型在检测4种临床相关病理方面优于至少2名放射科医生。

常用场景

经典使用场景

CheXpert数据集广泛应用于医疗影像领域，特别是胸部X光片的自动解读。通过对224,316张胸部X光片的分析，该数据集能够帮助研究人员开发出能够识别14种常见胸部影像学表现的模型。这些表现包括心脏肥大、水肿、积液等。CheXpert数据集的独特之处在于其包含了不确定性标签，这使得模型能够在训练过程中考虑到解读过程中的不确定性，从而提高模型的准确性和鲁棒性。

实际应用

CheXpert数据集在实际应用中具有重要的价值。它可以用于开发胸部X光片解读模型，帮助放射科医生提高诊断效率和准确性。此外，CheXpert数据集还可以用于开发临床决策支持系统，为医生提供辅助诊断建议。这些应用场景对于提高医疗质量和效率具有重要意义。

衍生相关工作

CheXpert数据集的发布推动了胸部X光片解读领域的研究。基于CheXpert数据集，研究人员开发了多种先进的胸部X光片解读模型，如CheXNet和Tienet。这些模型在识别和定位胸部疾病方面取得了显著的成果，为胸部X光片解读领域的研究和应用提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集