five

SynthCheX-75K Dataset

收藏
github2025-05-17 更新2025-05-19 收录
下载链接:
https://github.com/Raman1121/CheXGenBench
下载链接
链接失效反馈
官方服务:
资源简介:
SynthCheX-75K数据集包含超过75K高质量合成放射影像,使用我们基准测试中表现最佳的模型生成。

The SynthCheX-75K dataset contains over 75K high-quality synthetic radiological images, generated using the best-performing model from our benchmark tests.
创建时间:
2025-05-14
原始信息汇总

CheXGenBench数据集概述

数据集简介

  • 名称: CheXGenBench
  • 类型: 胸部放射影像合成数据集与基准测试
  • 核心目标: 评估合成胸部放射影像的保真度、隐私性和实用性
  • 预印本: Arxiv链接

关键组件

  1. SynthCheX-75K数据集

    • 数据量: >75,000张高质量合成放射影像
    • 来源: 基准测试中表现最佳的模型生成
    • 获取地址: HuggingFace链接
  2. 微调模型检查点

数据源与标注

  • 基础数据: MIMIC-CXR数据集(需获取许可)
  • 标注数据: LLaVA-Rad增强标注
    • 训练集: MIMIC_Splits/LLAVARAD_ANNOTATIONS_TRAIN.csv
    • 测试集: MIMIC_Splits/LLAVARAD_ANNOTATIONS_TEST.csv

评估指标

  1. 生成保真度

    • 整体分析: FID/KID等指标
    • 条件分析: 按病理类型单独评估
    • 结果存储:
      • Results/image_generation_metrics.csv
      • Results/conditional_image_generation_metrics.csv
  2. 隐私指标

  3. 下游实用性

    • 图像分类: 使用20,000个样本
      • 提示文件: MIMIC_Splits/Downstream_Classification_Files/training_data_20K.csv
    • 放射报告生成: 需集成LLaVA-Rad环境

环境要求

  • Python≥3.10.0
  • PyTorch≥2.0.1+cu12.1
搜集汇总
数据集介绍
main_image_url
构建方式
SynthCheX-75K数据集通过先进的文本到图像生成技术构建,基于MIMIC-CXR数据集中的胸部X光影像及其对应的LLaVA-Rad标注。研究团队训练了11种不同的文本到图像模型,利用Diffusers等框架生成高质量合成影像。生成过程中,每张合成影像均与原始提示文本配对保存,确保数据可追溯性。数据集构建严格遵循医学影像标准,所有合成影像均经过病理条件分类和组织结构完整性验证。
特点
该数据集包含超过75,000张高保真合成胸部X光影像,覆盖MIMIC数据集中全部病理类型。影像分辨率达到临床诊断级别,每张影像均附带精准的文本描述标签。数据集特别注重病理特征的多样性表现,在常见胸部疾病如肺炎、肺水肿等类别上具有均衡分布。合成影像在视觉真实性与隐私保护之间取得平衡,为医学影像分析研究提供了安全可靠的数据来源。
使用方法
研究者可通过HuggingFace平台直接下载完整数据集,配套提供详细的元数据CSV文件。数据集支持多种评估方式:使用image_quality_metrics.sh脚本计算整体生成质量指标,或通过conditional_image_generation_metrics.sh进行病理特异性分析。隐私评估模块需加载专用的患者再识别模型,运行privacy_metrics.sh即可获得隐私保护指标。下游任务适配性强,既可用于影像分类模型训练,也能支持放射学报告生成系统的开发。
背景与挑战
背景概述
SynthCheX-75K数据集是由Raman1121团队于2025年发布的高质量合成胸部X光影像数据集,作为CheXGenBench基准测试的重要组成部分。该数据集基于MIMIC-CXR数据集,利用先进的文本到图像生成模型创建了超过7.5万张合成影像,旨在解决医学影像分析领域中的数据隐私和稀缺性问题。通过结合LLaVA-Rad的增强标注技术,该数据集为研究人员提供了丰富的标注信息,显著提升了合成影像的语义准确性。SynthCheX-75K的发布推动了医学影像合成技术的发展,为医疗AI模型的训练和评估提供了新的数据来源。
当前挑战
在医学影像合成领域,SynthCheX-75K数据集面临多重挑战。从领域问题来看,合成影像需要同时满足高保真度、病理特征准确性和患者隐私保护这三个相互制约的要求,这对生成模型的性能提出了极高要求。在构建过程中,团队需要处理原始MIMIC-CXR数据的高度不平衡分布,确保合成数据能覆盖各类罕见病症;同时,LLaVA-Rad标注系统的集成增加了数据处理的复杂度。计算资源限制也是重要挑战,特别是在评估阶段计算FID和KID等指标时,大规模合成影像的处理容易引发内存溢出问题。
常用场景
经典使用场景
SynthCheX-75K数据集在医学影像合成领域具有重要价值,其经典使用场景包括训练和评估文本到图像生成模型。通过高质量的合成胸部X光片,研究人员能够在不涉及真实患者隐私数据的前提下,进行模型性能的验证和优化。该数据集特别适用于生成对抗网络(GANs)和扩散模型等先进算法的开发与测试,为医学影像合成研究提供了丰富的实验材料。
解决学术问题
SynthCheX-75K数据集有效解决了医学影像研究中数据隐私和稀缺性的核心问题。通过提供大量高质量的合成影像,该数据集使研究人员能够在保护患者隐私的同时,开展各种医学影像分析任务。此外,数据集支持对生成模型的保真度、隐私性和实用性进行系统评估,为医学影像合成领域的标准化研究提供了重要基础。
衍生相关工作
基于SynthCheX-75K数据集,已衍生出多项重要的研究工作。这些工作主要集中在医学影像合成算法的改进、隐私保护技术的提升,以及下游任务如疾病分类和放射报告生成的性能优化。相关研究不仅推动了医学影像合成技术的发展,也为临床AI应用的可靠性评估建立了新的基准。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作