CheXStruct

Hugging Face2025-07-19 更新2025-07-20 收录

下载链接：

https://huggingface.co/datasets/ttumyche/CheXStruct

下载链接

链接失效反馈

官方服务：

资源简介：

CheXStruct数据集提供了从高质量的胸透图像中提取的结构化临床信息，这些信息是通过CheXStruct流水线自动生成的。该流水线为12个诊断任务生成结构化输出，包括放射学发现和图像质量评估，以及3个全局过滤任务以排除非正面或损坏的图像。

创建时间：

2025-07-15

原始信息汇总

CheXStruct数据集概述

数据集基本信息

许可证: CC BY-NC 4.0
相关论文: CXReasonBench: A Benchmark for Evaluating Structured Diagnostic Reasoning in Chest X-rays
年份: 2025

数据集概述

CheXStruct数据集通过CheXStruct pipeline从高质量胸部X光图像中提取结构化临床信息，用于胸部X光的诊断推理评估。数据集包含12项诊断任务和3项全局过滤任务。

任务分类

全局过滤
- 排除非正面或损坏的图像
放射学发现
- 心脏肥大、纵隔增宽、隆突角、气管偏移、主动脉结增大、升主动脉增大、降主动脉增大和降主动脉迂曲
图像质量评估
- 包含度、吸气水平、旋转和投影

数据集结构

数据集源自三个公开的胸部X光数据集：

nih_cxr14: 源自NIH Chest X-ray 14数据集
vindrcxr: 源自VinDr-CXR数据集
openi: 源自OpenI数据集

每个文件夹包含15个.csv文件，对应12项诊断任务和3项全局过滤任务。

CSV文件结构

通用列:
- image_file: 图像唯一标识符
- viewposition: X光视图位置（PA/AP/N/A）
- label: 二进制标签（1/0）
任务特定列:
- 解剖标志点
- 诊断测量值
- 诊断指数

引用

bibtex @article{lee2025cxreasonbench, title={CXReasonBench: A Benchmark for Evaluating Structured Diagnostic Reasoning in Chest X-rays}, author={Lee, Hyungyung and Choi, Geon and Lee, Jung-Oh and Yoon, Hangyul and Hong, Hyuk Gi and Choi, Edward}, journal={arXiv preprint arXiv:2505.18087}, year={2025} }

许可证

数据集许可证: CC BY 4.0
注意事项: 使用时应遵守源数据集的许可证

联系方式

邮箱: ttumyche@kaist.ac.kr

搜集汇总

数据集介绍

构建方式

在医学影像分析领域，CheXStruct数据集的构建体现了自动化技术在胸部X光片结构化诊断中的创新应用。该数据集通过自主研发的CheXStruct流程，从NIH Chest X-ray 14、VinDr-CXR和OpenI三个公开胸片数据集中自动提取结构化临床信息。构建过程采用多阶段处理框架，首先通过全局过滤模块排除非正面或质量不合格的影像，随后基于解剖标志点分割和几何测量技术，系统化地生成12项诊断任务的结构化输出，涵盖放射学发现和影像质量评估两大维度。

特点

该数据集最显著的特征在于其精细的结构化标注体系和多维度的诊断指标。每项诊断任务不仅包含二元分类标签，还详细记录了关键解剖标志点的空间坐标、基于几何特征的诊断测量值以及衍生计算的临床指标。特别值得注意的是，数据集针对心脏肥大等放射学发现提供了心脏宽度、胸廓宽度及心胸比等量化指标，而对气管偏斜等复杂征象则采用多点坐标序列进行空间轨迹描述，为深度学习模型提供了丰富的结构化监督信号。

使用方法

研究人员可通过Hugging Face平台获取该数据集的CSV格式结构化标注文件，每个诊断任务对应独立的数据表。使用时应首先完成源胸片数据的下载和路径配置，随后将CheXStruct提供的结构化标注与原始影像进行关联。对于模型开发，建议采用多任务学习框架同时处理12项诊断任务，并注意区分PA/AP位影像的视图差异。数据集中提供的解剖标志点坐标可直接用于空间注意力机制的构建，而各类诊断比值指标则适合作为回归任务的监督目标。

背景与挑战

背景概述

CheXStruct数据集由Lee等人在2025年提出，旨在通过自动化框架从胸部X光图像中提取结构化临床信息，以支持诊断推理研究。该数据集基于三个公开的胸部X光数据集（NIH Chest X-ray 14、VinDr-CXR和OpenI）构建，涵盖了12项诊断任务，包括放射学发现和图像质量评估。其核心研究问题在于如何通过自动化方法实现胸部X光的结构化诊断推理，从而提升医学影像分析的效率和准确性。该数据集的推出为医学影像分析领域提供了重要的基准工具，推动了结构化诊断推理技术的发展。

当前挑战

CheXStruct数据集面临的挑战主要体现在两个方面：领域问题的复杂性和数据构建的技术难度。在领域问题方面，胸部X光图像的诊断涉及多种复杂的解剖结构和病理特征，如心脏肥大、纵隔增宽等，这些特征的自动识别和量化需要高精度的算法支持。在数据构建过程中，如何确保自动化框架在不同来源数据集上的一致性，以及如何处理图像质量差异（如非正面或损坏图像）是主要技术难点。此外，数据集的构建还需克服标注噪声和医学影像多样性的挑战，以确保生成的标签和测量结果的可靠性。

常用场景

经典使用场景

在医学影像分析领域，CheXStruct数据集为研究者提供了一个标准化的结构化诊断基准。该数据集通过自动化流程从胸部X光片中提取12项诊断任务的关键指标，包括心脏肥大、纵隔增宽等放射学发现，以及图像质量评估指标。研究者可利用该数据集验证深度学习模型在结构化诊断推理任务中的性能，特别是在解剖标志点检测、定量测量计算等关键环节。

实际应用

临床实践中，CheXStruct支持开发智能胸片分析系统。基于其结构化输出，可构建自动检测心脏扩大、主动脉异常等常见病变的辅助工具。影像质量评估指标（如吸气充分性、旋转程度）可实时反馈拍摄质量，优化放射科工作流程。该数据集整合了NIH、VinDr等主流胸片数据源，确保了临床应用的泛化性。

衍生相关工作

该数据集已催生多项医学影像分析创新研究。基于其结构化标注，研究者开发了结合解剖先验知识的图神经网络模型，显著提升心脏轮廓检测精度。部分工作利用其量化指标改进了多任务学习框架，在同时预测多种放射学特征时保持各任务指标平衡。数据集提供的标准化评估协议也被多项胸片分析竞赛采纳为评分基准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集