RadGenome-ChestCT-Backup

Hugging Face2025-11-21 更新2025-11-22 收录

下载链接：

https://huggingface.co/datasets/Han-fufu/RadGenome-ChestCT-Backup

下载链接

链接失效反馈

官方服务：

资源简介：

RadGenome Chest CT是一个基于CT-RATE的全面、大规模、基于区域引导的3D胸部CT解释数据集。它利用最新的通用分割和大语言模型扩展了原始数据集（超过25,692个非对比3D胸部CT体积和来自20,000名患者的报告），增加了器官级别分割掩码、多粒度地面报告和地面视觉问答对。这些特性使得RadGenome Chest CT能够显著推动多模态医学基础模型的发展。

RadGenome Chest CT is a comprehensive, large-scale region-guided 3D chest CT interpretation dataset based on CT-RATE. It extends the original dataset (comprising over 25,692 non-contrast 3D chest CT volumes and reports from 20,000 patients) by leveraging state-of-the-art general-purpose segmentation models and large language models, adding organ-level segmentation masks, multi-granularity ground-truth reports, and ground-truth visual question answering pairs. These features enable RadGenome Chest CT to significantly advance the development of multimodal medical foundation models.

创建时间：

2025-11-20

原始信息汇总

RadGenome Chest CT 数据集概述

基本信息

数据集名称：RadGenome Chest CT
许可证：CC-BY-4.0
数据来源：基于CT-RATE数据集扩展

数据集规模

原始数据包含25,692个非对比3D胸部CT扫描和报告
数据来自20,000名患者
包含665,000个多粒度定位报告
包含1,300,000个定位视觉问答对

数据构成

配置1：定位报告

训练集：dataset/radgenome_files/train_region_report.csv
验证集：dataset/radgenome_files/validation_region_report.csv

配置2：定位视觉问答

训练集：
- dataset/radgenome_files/train_vqa_abnormality.csv
- dataset/radgenome_files/train_vqa_location.csv
- dataset/radgenome_files/train_vqa_presence.csv
- dataset/radgenome_files/train_vqa_size.csv
验证集：
- dataset/radgenome_files/validation_vqa_abnormality.csv
- dataset/radgenome_files/validation_vqa_location.csv
- dataset/radgenome_files/validation_vqa_presence.csv
- dataset/radgenome_files/validation_vqa_size.csv

配置3：病例级视觉问答

训练集：dataset/radgenome_files/train_case_disorders.csv
验证集：dataset/radgenome_files/calidation_case_disorders.csv

核心特征

器官级分割掩码覆盖197个类别
报告句子与CT扫描解剖区域通过分割掩码关联
视觉问答对均与参考分割掩码链接
验证集数据经过人工验证确保质量

使用条款

仅限于学术、研究和教育用途
禁止商业利用
需遵守数据保护和隐私法规
禁止重新识别个体信息
禁止数据重新分发
使用时需引用相关论文

相关论文

数据集论文：https://arxiv.org/pdf/2404.16754
CT-CLIP论文：https://arxiv.org/abs/2403.17834

搜集汇总

数据集介绍

构建方式

在医学影像分析领域，RadGenome-Chest CT数据集通过整合通用分割模型与大型语言模型的技术优势，对源自CT-RATE的25,692例三维胸部CT扫描数据进行了系统性扩展。该构建过程实现了器官级别的精细标注，涵盖197个解剖类别，并生成665,000条基于区域定位的报告文本，每个句子均与对应CT体积的解剖区域分割掩码相关联。此外，通过人工验证流程确保了验证集中所有定位报告与视觉问答数据的标注质量，形成了兼具结构性与可靠性的多模态医学数据资源。

使用方法

该数据集支持通过三种配置模式进行调用：定位报告配置提供训练与验证集的区域文本关联数据，定位视觉问答配置包含异常性、位置、存在性与尺寸四类问题的多文件结构化数据，案例级视觉问答配置则聚焦疾病层面的诊断分析。研究者需遵循学术用途规范，在模型训练中利用分割区域生成文本的任务设计，通过关联掩码与报告语句的对应关系，推动医学视觉语言模型的推理能力发展。

背景与挑战

背景概述

在医学人工智能领域，构建通用基础模型已成为前沿研究方向。RadGenome-Chest CT数据集应运而生，由研究团队基于CT-RATE数据集扩展开发，聚焦于三维胸部CT影像的多模态理解。该数据集整合了25692例非对比增强胸部CT容积数据与对应报告，覆盖两万名患者群体，通过先进的分割模型与语言模型技术，实现了器官级分割掩码与文本报告的跨模态关联。其核心价值在于推动医学影像分析从单一分类任务向可解释性区域引导的视觉语言推理演进，为构建具备临床推理能力的医学基础模型提供了关键数据支撑。

当前挑战

该数据集致力于解决医学影像领域视觉语言联合建模的核心难题：如何建立解剖结构与文本描述的精确对应关系。构建过程中面临双重挑战：其一是跨模态对齐的技术复杂性，需通过197类器官分割掩码实现665万条报告语句与三维影像区域的细粒度关联；其二是数据质量控制的工程挑战，验证集内所有接地报告与视觉问答对均需经过人工核验，确保解剖定位与文本描述的逻辑一致性。这些挑战凸显了医学多模态数据标准化建设的核心瓶颈。

常用场景

经典使用场景

在医学影像分析领域，RadGenome-Chest CT数据集被广泛应用于构建多模态基础模型。该数据集通过结合器官级分割掩码与文本报告，支持模型学习从三维CT图像中提取视觉特征并生成对应医学描述。典型应用包括训练模型根据特定解剖区域生成诊断文本，实现影像与语言的无缝对齐，为自动化医疗报告撰写提供可靠数据支撑。

解决学术问题

该数据集有效解决了医学影像分析中视觉与语言模态对齐的学术难题。通过提供665K细粒度标注报告和130万视觉问答对，研究者能够开发出可解释性更强的诊断模型。其区域引导的标注机制突破了传统数据集中视觉证据与文本描述脱节的局限，为验证模型决策过程提供了可追溯的解剖学依据，显著推进了可信医学人工智能的发展。

实际应用

在临床实践场景中，该数据集支撑的模型可辅助放射科医生进行胸部CT影像解读。通过实时生成基于解剖区域的异常描述，有效缩短报告撰写时间并减少人为疏忽。其多粒度标注体系还能用于构建智能教学系统，帮助医学生理解影像特征与临床诊断的关联，提升医疗培训效率与质量。

数据集最近研究