CXR-1M
收藏arXiv2025-02-08 更新2025-02-11 收录
下载链接:
https://github.com/RPIDIAL/CheXFound
下载链接
链接失效反馈官方服务:
资源简介:
CXR-1M数据集是由伦斯勒理工学院生物医学工程系和生物技术与交叉学科研究中心创建的,包含超过一百万张来自公开可用来源的独特的胸片图像。该数据集用于CheXFound模型的自我监督预训练,这些图像来源于13个公开的数据集,包括MIMICCXR、CheXpert、PadChest等。数据集旨在为多种下游任务提供强大的图像表征,如疾病检测、风险评估等,以促进临床应用的发展。
The CXR-1M dataset was developed by the Department of Biomedical Engineering and the Center for Biotechnology and Interdisciplinary Studies at Rensselaer Polytechnic Institute. It contains over one million unique chest X-ray images sourced from publicly available resources. This dataset is used for self-supervised pre-training of the CheXFound model, and its images are collected from 13 public datasets including MIMICCXR, CheXpert, PadChest and others. The dataset aims to provide robust image representations for various downstream tasks such as disease detection and risk assessment, so as to promote the development of clinical applications.
提供机构:
伦斯勒理工学院生物医学工程系和生物技术与交叉学科研究中心
创建时间:
2025-02-08
原始信息汇总
CheXFound 数据集概述
数据集简介
CheXFound 是一个基于视觉的预训练模型,该模型在来自公开可用资源的大约100万张胸部X射线图像上进行预训练。
数据集组成
- CXR-1M 数据集:包含以下目录结构:
<ROOT>/train/目录下的多个子目录,包括 mimic、chexpert、padchest 和 brax,每个子目录中包含图像文件。<ROOT>/val/验证集目录。<ROOT>/test/测试集目录。<ROOT>/labels.txt标签文件。
- 元数据文件:在
<EXTRA>/目录下,包括训练集、验证集和测试集的类ID、类名和条目信息。
预训练模型架构
- CheXFound 使用 ViT-Large 架构,具有16x16的补丁大小,并在512x512的图像分辨率下进行训练。
- GLoRI 头部:使用768维的嵌入维度和8个头的多头注意力机制。
使用环境
- 需要PyTorch 2.0和xFormers 0.0.18以及其他第三方包。
- 代码只在特定版本和Linux环境下测试通过。
预训练命令
- 预训练CheXFound的命令行示例已给出。
评估命令
- 提供了线性探测和GLoRI性能评估的命令行示例。
搜集汇总
数据集介绍

构建方式
CXR-1M数据集的构建旨在为胸部X光图像分析提供一个大规模、多样化的训练资源。该数据集由来自13个公开数据集的超过一百万张独特的X光图像组成,这些数据集涵盖了从疾病诊断、异常检测到分割等多种下游任务。为了确保数据的质量和多样性,CXR-1M数据集包括前后位和侧位视图的X光图像,以学习多角度的X光分析。此外,为了评估自监督预训练的可扩展性,CXR-1M数据集被划分为CXR-207K和CXR-744K两个子集。这些数据集的构建过程采用了DINOv2自监督学习方法进行预训练,该方法结合了掩码图像建模和[CLS]标记对齐目标,以学习高质量的X光图像表示。
特点
CXR-1M数据集的特点在于其规模和多样性,这使得它成为一个理想的训练资源,用于开发具有强大泛化能力的胸部X光图像分析模型。数据集的多样性体现在它包含了来自不同机构和具有不同病理特征的X光图像,这有助于模型学习更全面的疾病表示。此外,数据集的规模允许模型学习更复杂的特征,从而在下游任务中表现出更好的性能。CXR-1M数据集的另一个重要特点是它的多角度视图,这有助于模型学习从不同角度识别疾病的能力。最后,数据集的可扩展性,即通过划分成不同大小的子集,使得研究人员可以评估模型在不同数据规模下的性能,从而更好地理解模型的泛化能力。
使用方法
CXR-1M数据集的使用方法主要涉及自监督预训练和下游任务的评估。在自监督预训练阶段,研究人员使用DINOv2方法对模型进行训练,以学习X光图像的鲁棒表示。这一阶段的目标是使模型能够从大量未标记的数据中学习,从而减少对昂贵标记数据的依赖。在下游任务评估阶段,研究人员使用线性探测和GLoRI模块对模型的性能进行评估。线性探测是一种评估预训练模型表示质量的方法,它主要依赖于全局图像特征。而GLoRI模块则通过结合疾病特定的局部特征和全局图像特征,以提高多标签分类的性能。通过对CXR-LT 24、CheXpert、Shenzhen、Montgomery和JSRT等数据集上的实验,研究人员验证了CXR-1M数据集在训练具有强泛化能力的胸部X光图像分析模型方面的有效性。
背景与挑战
背景概述
CXR-1M数据集是一项旨在解决胸部X光片(CXR)图像分析中存在的关键问题的重要资源。由Yang等人于2025年提出,该数据集汇集了来自13个公开数据集的超过一百万张独特的CXR图像,为胸部疾病检测、术后监测等临床任务提供了丰富的数据基础。CheXFound模型是该数据集上预训练的视觉基础模型,通过学习鲁棒的CXR表征,有效泛化到广泛的下游任务。CXR-1M数据集的创建不仅推动了胸部X光片分析领域的发展,而且为医疗影像分析提供了强大的支持,使其成为研究者和临床医生的重要工具。
当前挑战
尽管CXR-1M数据集和CheXFound模型取得了显著进展,但仍面临一些挑战。首先,在解决胸部X光片分析领域的挑战方面,CXR图像的多样性和复杂性要求模型能够准确识别和分类多种疾病。其次,构建CXR-1M数据集的过程中,数据收集、清洗和标注需要大量的人力和时间投入,且需要确保数据的准确性和一致性。此外,CXR-1M数据集的规模庞大,对计算资源的要求较高,这限制了模型训练和评估的效率。最后,CheXFound模型的泛化能力虽然在多个下游任务中表现出色,但在面对新的、分布外数据集时仍需进一步验证。
常用场景
经典使用场景
CXR-1M数据集广泛应用于胸部X射线图像分析,特别是用于训练和评估自监督视觉基础模型CheXFound。该模型通过学习鲁棒的胸部X射线表征,有效地泛化到各种下游任务,如疾病检测、术后监测以及机会性心血管疾病风险评估和死亡率预测。
实际应用
CXR-1M数据集的实际应用场景包括但不限于医院、研究机构和医疗影像分析公司。它被用于训练和评估胸部X射线图像分析模型,以辅助医生进行疾病检测、风险评估和预后预测。此外,该数据集还可以用于开发新的医学影像分析算法和工具,以提高医疗诊断的准确性和效率。
衍生相关工作
CXR-1M数据集衍生了多个相关的经典工作,包括CheXFound模型、GLoRI模块和基于DINOv2的自监督学习方法。这些工作为胸部X射线图像分析领域提供了新的研究方向和技术方案,并推动了该领域的发展。
以上内容由遇见数据集搜集并总结生成



