CheXmask
收藏arXiv2024-05-14 更新2024-06-21 收录
下载链接:
https://physionet.org/content/chexmask-cxr-segmentation-data/
下载链接
链接失效反馈官方服务:
资源简介:
CheXmask是一个大规模的胸部X光图像解剖分割掩码数据集,由信号、系统和计算智能研究所创建。该数据集包含来自五个知名公共数据库的657,566个分割掩码,这些数据库代表了广泛的地理位置、患者人口统计和疾病谱。数据集的创建过程利用了HybridGNet模型,确保了分割掩码的高质量和一致性。CheXmask数据集的应用领域包括胸部X光分析的创新方法开发和评估,旨在解决医学图像分析中的自动化和效率问题。
CheXmask is a large-scale anatomical segmentation mask dataset for chest X-ray images, developed by the Institute of Signal, Systems and Computational Intelligence. This dataset contains 657,566 segmentation masks sourced from five well-known public databases, which cover a wide range of geographic locations, patient demographics and disease spectra. The dataset was constructed using the HybridGNet model, ensuring high quality and consistency of the segmentation masks. Application scenarios of the CheXmask dataset include the development and evaluation of innovative methods for chest X-ray analysis, aiming to address the automation and efficiency challenges in medical image analysis.
提供机构:
信号、系统和计算智能研究所
创建时间:
2023-07-07
搜集汇总
数据集介绍

构建方式
CheXmask 数据集的构建采用了 HybridGNet 模型,这是一种深度学习模型,用于生成高质量的解剖分割掩码。该模型结合了传统的卷积操作和图生成模型,以确保在来自五个公开可用的数据库(ChestX-ray8、CheXpert、MIMIC-CXR-JPG、Padchest 和 VinDr-CXR)的图像上实现一致且精细的解剖分割。为了验证分割掩码的质量,进行了严格的验证,包括专家医师评估和自动质量控制。此外,还为每个掩码提供了个性化的质量指标,并为每个数据集提供了整体质量估计。
特点
CheXmask 数据集的特点在于其规模庞大,包含来自五个不同数据库的 657,566 个分割掩码,涵盖了广泛的地理区域、患者人口统计和疾病谱。该数据集提供了肺和心脏结构的分割掩码及其相应的质量指数,这些分割掩码是通过 HybridGNet 模型生成的,并通过 Reverse Classification Accuracy (RCA) 框架进行了质量控制。RCA 框架能够在没有地面真实值的情况下估计分割方法的准确性,这使得 CheXmask 数据集成为处理大型数据库和下游任务的有力工具。
使用方法
CheXmask 数据集的使用方法包括但不限于:1. 用于深度学习模型开发和评估;2. 用于训练生成模型;3. 用于临床决策支持系统;4. 用于疾病检测和诊断;5. 用于异常检测。研究者可以探索新的方法,例如将掩码自动编码器集成到自监督学习中,或将掩码指导的注意力和深度监督技术应用于模型,以增强对特定解剖区域的关注,从而提高定位和特征提取的准确性。在使用分割掩码进行下游任务时,建议仅使用 RCA-estimated DSC 高于 0.7 的分割,以避免包括分布外的图像和低质量掩码。
背景与挑战
背景概述
胸部X光片分析是诊断多种肺部疾病的关键成像技术,包括肺炎、结核病和肺癌。然而,胸部X光片的解读是一项挑战,因为胸腔内复杂的重叠结构和某些病理状况的微妙表现。随着深度学习方法在医学图像解读中的成功,对高质量、大规模的胸部X光片数据集的需求日益增长,特别是对于像素级解剖分割标签的需求。为了填补这一空白,CheXmask数据集被创建,它是一个包含来自五个知名公开数据集的胸部X光片的大规模多中心分割数据集,具有统一和精细的解剖标注。该数据集的创建时间为2024年5月,主要研究人员来自阿根廷信号、系统和计算智能研究所、布宜诺斯艾利斯意大利医院健康信息部门、布宜诺斯艾利斯国立科技大学和布宜诺斯艾利斯意大利医院放射科。CheXmask数据集的核心研究问题是提供高质量、大规模的胸部X光片分割数据,以促进胸部X光片分析的创新方法的发展和评估。该数据集对相关领域的影响是巨大的,因为它为研究人员提供了一个宝贵资源,可以促进深度学习模型的发展,并推动自动化胸部X光片分析的进步。
当前挑战
CheXmask数据集面临的挑战包括:1)分割任务的挑战,例如确保分割的准确性和鲁棒性,尤其是在胸部X光片中存在复杂的重叠结构和微妙的病理状况的情况下;2)构建过程中遇到的挑战,例如确保数据集的多样性和代表性,以及处理可能存在的标签不一致和数据质量的问题。为了解决这些挑战,研究人员使用了HybridGNet模型来生成解剖学上合理的分割,并实施了Reverse Classification Accuracy (RCA)框架来评估分割质量。这些方法的使用有助于提高分割的准确性和数据集的可靠性,从而为下游任务提供了高质量的数据。
常用场景
经典使用场景
CheXmask数据集被广泛应用于胸片分析领域,尤其是在肺和心脏的解剖结构分割方面。该数据集提供了从五个大型数据库中提取的657,566个分割掩码,为研究人员提供了丰富的数据资源。其最经典的使用场景包括但不限于:肺和心脏的分割任务、基于分割掩码的自动分割模型开发与评估、训练生成模型以模拟真实解剖结构、临床决策支持系统的构建、疾病检测与诊断以及异常检测等。
解决学术问题
CheXmask数据集解决了医学影像领域中缺乏高质量的像素级解剖分割标注数据的问题。在此之前,许多胸片数据库只包含疾病诊断标签,缺乏详细的像素级解剖分割标注。CheXmask数据集通过提供高质量的解剖分割掩码,极大地促进了胸片分析领域的研究。此外,该数据集还引入了反向分类准确度(RCA)框架,用于在没有真实标签的情况下评估分割质量,为大规模图像分析研究提供了有价值的工具。
衍生相关工作
CheXmask数据集的发布推动了胸片分析领域的研究进展,并衍生出一系列相关经典工作。例如,基于CheXmask数据集,研究人员可以进一步研究如何整合掩码自动编码器进行自监督学习,利用分割掩码作为丰富的无监督特征提取源。此外,CheXmask数据集还可以用于实现基于掩码的注意力和深度监督技术,以提高模型对特定解剖区域的分析精度。这些相关工作不仅推动了胸片分析领域的技术进步,也为其他医学影像分析任务提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



