COVID-19 and CGMH Pelvis

Name: COVID-19 and CGMH Pelvis
Creator: 东南大学
Published: 2023-06-06 17:44:19
License: 暂无描述

arXiv2023-06-06 更新2024-07-30 收录

下载链接：

https://github.com/shaoshitong/DiffuseExpand

下载链接

链接失效反馈

官方服务：

资源简介：

本研究涉及两个数据集：COVID-19和CGMH Pelvis，分别包含304和400对图像-掩码数据，用于医学图像分割任务。COVID-19数据集包含胸部X光图像，而CGMH Pelvis数据集则包含骨盆X光图像。这些数据集由于医学图像的高隐私性和标注难度，通常规模有限，因此本研究提出了一种基于扩散概率模型（DPMs）的数据集扩展方法DiffuseExpand，旨在通过合成高质量的图像-掩码对来增强数据集的多样性和规模，从而提高医学图像分割模型的准确性和泛化能力。

This study utilizes two datasets: COVID-19 and CGMH Pelvis, which respectively include 304 and 400 image-mask pairs for medical image segmentation tasks. The COVID-19 dataset comprises chest X-ray images, whereas the CGMH Pelvis dataset contains pelvic X-ray images. Owing to the high privacy sensitivity and annotation complexity of medical images, the scale of these datasets is typically limited. Therefore, this study proposes a dataset expansion method named DiffuseExpand based on diffusion probabilistic models (DPMs), which aims to synthesize high-quality image-mask pairs to augment the diversity and scale of datasets, thereby enhancing the accuracy and generalization performance of medical image segmentation models.

提供机构：

东南大学

创建时间：

2023-04-26

原始信息汇总

DiffuseExpand 数据集概述

数据集信息

数据集名称: DiffuseExpand
数据集用途: 用于2D医学图像分割的扩散模型扩展数据集
包含数据集:
- COVID-19
- CGMH Pelvis

数据集下载

COVID-19: 从GitHub链接下载
CGMH Pelvis: 从Kaggle链接下载

数据集使用步骤

环境搭建:
- 使用.yaml文件配置环境
- 根据GPU型号选择相应的.yaml文件进行环境创建
下载预训练检查点:
- 下载预训练模型文件256x256_diffusion.pt
微调扩散模型 (Stage I):
- 使用8个Tesla A100 GPU进行实验，每个GPU的batchsize为2
- 针对COVID-19和CGMH Pelvis分别运行相应的训练脚本
训练分割器 (Stage II):
- 使用2个Tesla A100 GPU进行实验，每个GPU的batchsize为8
- 针对COVID-19和CGMH Pelvis分别运行相应的训练脚本
合成图像-掩码对 (Stage III):
- 针对COVID-19和CGMH Pelvis分别运行相应的合成脚本
选择高质量图像-掩码对 (Stage IV):
- 需要先训练一个unet模型并合成足够的样本对
- 针对COVID-19和CGMH Pelvis分别运行相应的选择脚本
训练验证模型:
- 针对COVID-19和CGMH Pelvis分别运行相应的验证脚本

搜集汇总

数据集介绍

构建方式

在医学影像分割领域，数据稀缺常因隐私保护与标注困难而成为模型训练的瓶颈。DiffuseExpand创新性地采用扩散概率模型构建数据集，其过程分为四个阶段：首先对预训练模型进行微调，使其适应医学图像分布；随后训练分割器以提供分类器引导，确保图像与掩码的对齐；接着利用DPM Solver++从高斯噪声中合成多样化的掩码，并以掩码为条件生成对应图像，形成配对样本；最终通过神经网络筛选高质量样本对，剔除对齐不佳或合成质量低的样本，从而构建出既丰富又可靠的扩展数据集。

特点

该数据集的核心特点在于其合成样本的高质量与多样性。通过扩散概率模型，能够生成具有高度真实感的医学图像，同时确保每张图像都配有精确的掩码标注。合成过程中引入的温度参数τ自动调节梯度规模，优化了条件引导效果，使样本在保持多样性的同时提升了对齐精度。此外，数据集经过严格的质量筛选，有效避免了传统生成模型中常见的模式崩溃与样本偏差问题，为分割模型训练提供了既可靠又具挑战性的数据资源。

使用方法

该数据集主要用于增强医学影像分割模型的训练效果。研究人员可将合成样本与原始数据合并，作为扩展训练集输入分割网络（如UNet、TransUNet等），以提升模型在有限数据场景下的泛化能力与分割精度。在使用时，建议遵循论文中的实验设置，例如采用特定的学习率与批次大小进行训练，并可结合RandAugment等数据增强技术进一步优化性能。数据集的合成样本亦可用于少样本学习场景，通过引入多样化的合成数据，有效缓解数据稀缺带来的过拟合风险。

背景与挑战

背景概述

在医学影像分析领域，图像分割技术对于临床诊断与治疗具有关键作用，能够精准勾勒出感兴趣区域，为量化分析提供基础。然而，医学影像数据因涉及患者隐私且标注成本高昂，常面临数据稀缺的挑战，制约了分割模型的训练精度与泛化能力。为此，数据扩展技术应运而生，旨在通过合成新样本缓解数据不足问题。DiffuseExpand算法由东南大学、中国科学技术大学及清华大学的研究团队于2023年提出，其核心研究问题聚焦于利用扩散概率模型（DPMs）生成高质量且多样化的二维医学图像-掩码对，以扩展分割数据集。该研究在COVID-19胸部X光与CGMH Pelvis骨盆X光数据集上验证了方法的有效性，为医学影像分割领域的数据增强提供了创新思路，推动了生成模型在医疗数据合成中的应用。

当前挑战

DiffuseExpand数据集旨在解决医学图像分割领域的数据稀缺问题，其核心挑战在于生成既具多样性又保持图像与掩码对齐的合成样本。传统生成对抗网络（GANs）等方法常受限于模式崩溃与采样多样性不足，难以保证合成样本的质量与配对准确性。在构建过程中，研究团队需克服多重技术难题：首先，扩散概率模型在条件控制与加速采样方面的理论实现需精细设计，以确保合成效率；其次，算法需在掩码生成与图像合成的两阶段过程中维持语义一致性，避免图像-掩码对失配；此外，合成样本的质量筛选机制需依赖预训练模型进行高效评估，以剔除低质量样本，这增加了计算复杂度与实现难度。

常用场景

经典使用场景

在医学影像分割领域，数据稀缺性长期制约着模型性能的提升，COVID-19 and CGMH Pelvis数据集作为二维X射线影像的代表，其经典使用场景在于为基于扩散概率模型的数据扩展算法提供验证平台。该数据集包含胸部与骨盆X射线图像及其对应分割掩码，研究者利用其有限样本量模拟真实临床数据匮乏环境，通过DiffuseExpand等方法生成高质量图像-掩码对，以增强分割模型的训练效果。这种场景不仅评估了生成样本的保真度与多样性，还推动了医学影像分析中数据扩展技术的演进。

实际应用

在实际医疗场景中，COVID-19 and CGMH Pelvis数据集的应用主要体现在辅助临床诊断与治疗规划。例如，在COVID-19胸部X射线分析中，扩展后的数据可用于训练更稳健的肺部分割模型，帮助医生快速定位感染区域；在骨盆影像分析中，则支持骨科手术前的解剖结构精确勾勒。这些应用不仅缓解了医疗数据获取的伦理与实务障碍，还通过提升自动化分割工具的准确性，优化了诊疗效率，为资源有限环境下的医疗影像分析提供了可行解决方案。

衍生相关工作

基于该数据集衍生的经典工作主要集中在数据扩展与分割算法优化方向。例如，DiffuseExpand利用扩散概率模型实现图像-掩码对的协同生成，为后续研究提供了四阶段框架参考；同期工作如SynthMed与XLsor则分别探索了条件生成对抗网络与人工数据增强在同类任务中的应用。这些研究共同推动了医学影像生成领域的进展，并激发了更多针对样本多样性、对齐质量及计算效率的改进模型，形成了从数据合成到分割性能提升的完整研究脉络。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集