PAXRay 和 PAXRay++

github2024-11-14 更新2024-11-16 收录

下载链接：

https://github.com/ConstantinSeibold/2DAnatomyDatasets

下载链接

链接失效反馈

官方服务：

资源简介：

PAXRay和PAXRay++数据集提供了详细的解剖结构分割基础，利用3D CT扫描的投影来模拟高质量的2D放射图像，并带有细粒度的解剖标签。这些数据集包含多个解剖类别的分割掩码，适用于训练和验证分割模型。

The PAXRay and PAXRay++ datasets serve as a foundational resource for detailed anatomical structure segmentation. Leveraging projections derived from 3D CT scans to simulate high-quality 2D radiographic images, these datasets are paired with fine-grained anatomical labels. They contain segmentation masks across multiple anatomical categories, making them suitable for training and validating segmentation models.

创建时间：

2024-11-12

原始信息汇总

Anatomy in Chest X-Ray - Datasets

概述

JSRT数据库

247张图像，包括正面和侧面视图。
5个解剖学类别，类别信息可在此处查看。

PAXRay

PAXRay-4：
- 880张图像，包括正面和侧面视图。
- 4个解剖学类别，包括肺、骨骼、纵隔、膈肌，类别信息可在此处查看。
PAXRay-166：
- 880张图像，包括正面和侧面视图。
- 166个解剖学类别，包括细粒度（92个独立的解剖结构）和超类类别，类别信息可在此处查看。

PAXRay++

7,377张图像，包括正面和侧面视图。
157个解剖学类别，超过200万个注释实例，类别信息可在此处查看。

数据访问

数据存储在Google Drive上，访问链接为：https://drive.google.com/drive/folders/1rzlsZ0bfByRMBoywOPWZW08GNgIwCU9P?usp=sharing

数据结构

每个图像及其对应的掩码文件共享相同的基名，便于配对。
数据集结构如下：
- paxray_dataset：主文件夹。
- images：包含投影的CT图像，形状为512x512。
- labels：包含二进制分割掩码，形状为166x512x512。
- paxray_half.json 和 paxray_quarter.json：附加说明文件。

使用

提供了PyTorch数据加载器，便于模型训练和评估。
确保安装了torch和torchvision。

引用

如果使用PAXRay或PAXRay++数据集，请引用相关论文。

搜集汇总

数据集介绍

构建方式

在医学影像分析领域，PAXRay和PAXRay++数据集通过将3D CT扫描数据投影到2D平面，模拟高质量的X射线图像，从而构建了精细的解剖结构分割基础。PAXRay基于RibFrac CT数据集，提供了880张X射线类图像，并配备了多标签分割掩码，涵盖了肺、骨、纵隔和膈肌等四个解剖类别。PAXRay++则在此基础上进一步扩展，利用伪标签的胸腔CT数据，提供了7,377张图像，包含157个解剖类别和超过200万个标注实例，适用于胸部X射线中解剖结构的精细分割研究。

特点

PAXRay和PAXRay++数据集的显著特点在于其高精度的解剖结构标注和丰富的图像数量。PAXRay提供了880张图像，涵盖四个主要解剖类别，而PAXRay++则扩展至7,377张图像，包含157个解剖类别，提供了超过200万个标注实例。这些数据集不仅支持前视和侧视图像，还提供了详细的分割掩码，使得它们在医学影像分析中具有极高的应用价值。

使用方法

为了方便研究人员使用PAXRay和PAXRay++数据集，提供了PyTorch数据加载器，能够处理数据集的结构，轻松访问图像和掩码。使用前需确保安装了`torch`和`torchvision`库。数据集的文件命名规则确保了图像与其对应的掩码文件具有相同的基本名称，便于配对。此外，数据集的访问链接和结构信息在README文件中详细列出，便于用户快速上手。

背景与挑战

背景概述

PAXRay和PAXRay++数据集是由Seibold等人创建的，旨在为胸部X光图像中的解剖结构分割提供详细的基础。这两个数据集利用3D CT扫描的投影来模拟高质量的2D放射图像，并附有细粒度的解剖标签。PAXRay数据集基于RibFrac CT数据集，提供了880张X光样图像，具有多标签分割掩码，涵盖肺、骨骼、纵隔和膈肌等四个解剖类别。而PAXRay++则进一步扩展了这一概念，提供了7,377张图像，包含157个解剖类别和超过200万个标注实例，适用于胸部X光图像中解剖结构的细粒度分割。这些数据集的创建旨在推动医学影像分析领域的发展，特别是在解剖结构分割和诊断辅助方面。

当前挑战

PAXRay和PAXRay++数据集在构建过程中面临多个挑战。首先，从3D CT扫描数据生成高质量的2D X光样图像需要精确的投影技术，以确保图像的准确性和一致性。其次，为这些图像生成细粒度的解剖标签是一项复杂且耗时的任务，需要专业的医学知识和大量的标注工作。此外，数据集的规模和多样性也带来了存储和处理上的挑战，特别是在处理大量高分辨率图像和复杂的分割掩码时。最后，确保数据集的标注质量和一致性是另一个重要挑战，因为任何错误或不一致都可能影响模型的训练效果和最终的诊断准确性。

常用场景

经典使用场景

在医学影像分析领域，PAXRay和PAXRay++数据集的经典使用场景主要集中在胸部X光图像的解剖结构分割。通过利用3D CT扫描数据的投影，这些数据集提供了高质量的2D放射图像，并附有精细的解剖标签。研究者们利用这些数据集训练和验证分割模型，以实现对肺部、骨骼、纵隔和膈肌等关键解剖结构的精确分割。

衍生相关工作

基于PAXRay和PAXRay++数据集，研究者们开展了一系列相关工作，包括但不限于改进分割算法的精度、开发新的深度学习模型以及探索多模态影像数据的融合方法。这些工作不仅提升了医学影像分析的技术水平，还推动了相关领域的学术研究进展，为未来的医学影像处理技术奠定了坚实的基础。

数据集最近研究