SynthCheX-75K Dataset

github2025-05-17 更新2025-05-19 收录

下载链接：

https://github.com/Raman1121/CheXGenBench

下载链接

链接失效反馈

官方服务：

资源简介：

SynthCheX-75K数据集包含超过75K高质量合成放射影像，使用我们基准测试中表现最佳的模型生成。

The SynthCheX-75K dataset contains over 75K high-quality synthetic radiological images, generated using the best-performing model from our benchmark tests.

创建时间：

2025-05-14

原始信息汇总

CheXGenBench数据集概述

数据集简介

名称: CheXGenBench
类型: 胸部放射影像合成数据集与基准测试
核心目标: 评估合成胸部放射影像的保真度、隐私性和实用性
预印本: Arxiv链接

关键组件

SynthCheX-75K数据集
- 数据量: >75,000张高质量合成放射影像
- 来源: 基准测试中表现最佳的模型生成
- 获取地址: HuggingFace链接
微调模型检查点
- 数量: 11个不同模型
- 获取地址: HuggingFace集合

数据源与标注

基础数据: MIMIC-CXR数据集(需获取许可)
- 下载地址: PhysioNet链接
标注数据: LLaVA-Rad增强标注
- 训练集: MIMIC_Splits/LLAVARAD_ANNOTATIONS_TRAIN.csv
- 测试集: MIMIC_Splits/LLAVARAD_ANNOTATIONS_TEST.csv

评估指标

生成保真度
- 整体分析: FID/KID等指标
- 条件分析: 按病理类型单独评估
- 结果存储:
  - Results/image_generation_metrics.csv
  - Results/conditional_image_generation_metrics.csv
隐私指标
- 依赖模型: Patient Re-Identification Model
- 模型下载: HuggingFace链接
下游实用性
- 图像分类: 使用20,000个样本
  - 提示文件: MIMIC_Splits/Downstream_Classification_Files/training_data_20K.csv
- 放射报告生成: 需集成LLaVA-Rad环境

环境要求

Python≥3.10.0
PyTorch≥2.0.1+cu12.1

搜集汇总

数据集介绍

构建方式

SynthCheX-75K数据集通过先进的文本到图像生成技术构建，基于MIMIC-CXR数据集中的胸部X光影像及其对应的LLaVA-Rad标注。研究团队训练了11种不同的文本到图像模型，利用Diffusers等框架生成高质量合成影像。生成过程中，每张合成影像均与原始提示文本配对保存，确保数据可追溯性。数据集构建严格遵循医学影像标准，所有合成影像均经过病理条件分类和组织结构完整性验证。

特点

该数据集包含超过75,000张高保真合成胸部X光影像，覆盖MIMIC数据集中全部病理类型。影像分辨率达到临床诊断级别，每张影像均附带精准的文本描述标签。数据集特别注重病理特征的多样性表现，在常见胸部疾病如肺炎、肺水肿等类别上具有均衡分布。合成影像在视觉真实性与隐私保护之间取得平衡，为医学影像分析研究提供了安全可靠的数据来源。

使用方法

研究者可通过HuggingFace平台直接下载完整数据集，配套提供详细的元数据CSV文件。数据集支持多种评估方式：使用image_quality_metrics.sh脚本计算整体生成质量指标，或通过conditional_image_generation_metrics.sh进行病理特异性分析。隐私评估模块需加载专用的患者再识别模型，运行privacy_metrics.sh即可获得隐私保护指标。下游任务适配性强，既可用于影像分类模型训练，也能支持放射学报告生成系统的开发。

背景与挑战

背景概述

SynthCheX-75K数据集是由Raman1121团队于2025年发布的高质量合成胸部X光影像数据集，作为CheXGenBench基准测试的重要组成部分。该数据集基于MIMIC-CXR数据集，利用先进的文本到图像生成模型创建了超过7.5万张合成影像，旨在解决医学影像分析领域中的数据隐私和稀缺性问题。通过结合LLaVA-Rad的增强标注技术，该数据集为研究人员提供了丰富的标注信息，显著提升了合成影像的语义准确性。SynthCheX-75K的发布推动了医学影像合成技术的发展，为医疗AI模型的训练和评估提供了新的数据来源。

当前挑战

在医学影像合成领域，SynthCheX-75K数据集面临多重挑战。从领域问题来看，合成影像需要同时满足高保真度、病理特征准确性和患者隐私保护这三个相互制约的要求，这对生成模型的性能提出了极高要求。在构建过程中，团队需要处理原始MIMIC-CXR数据的高度不平衡分布，确保合成数据能覆盖各类罕见病症；同时，LLaVA-Rad标注系统的集成增加了数据处理的复杂度。计算资源限制也是重要挑战，特别是在评估阶段计算FID和KID等指标时，大规模合成影像的处理容易引发内存溢出问题。

常用场景

经典使用场景

SynthCheX-75K数据集在医学影像合成领域具有重要价值，其经典使用场景包括训练和评估文本到图像生成模型。通过高质量的合成胸部X光片，研究人员能够在不涉及真实患者隐私数据的前提下，进行模型性能的验证和优化。该数据集特别适用于生成对抗网络（GANs）和扩散模型等先进算法的开发与测试，为医学影像合成研究提供了丰富的实验材料。

解决学术问题

SynthCheX-75K数据集有效解决了医学影像研究中数据隐私和稀缺性的核心问题。通过提供大量高质量的合成影像，该数据集使研究人员能够在保护患者隐私的同时，开展各种医学影像分析任务。此外，数据集支持对生成模型的保真度、隐私性和实用性进行系统评估，为医学影像合成领域的标准化研究提供了重要基础。

衍生相关工作

基于SynthCheX-75K数据集，已衍生出多项重要的研究工作。这些工作主要集中在医学影像合成算法的改进、隐私保护技术的提升，以及下游任务如疾病分类和放射报告生成的性能优化。相关研究不仅推动了医学影像合成技术的发展，也为临床AI应用的可靠性评估建立了新的基准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集