RadGenome-ChestCT-Backup
收藏Hugging Face2025-11-21 更新2025-11-22 收录
下载链接:
https://huggingface.co/datasets/Han-fufu/RadGenome-ChestCT-Backup
下载链接
链接失效反馈官方服务:
资源简介:
RadGenome Chest CT是一个基于CT-RATE的全面、大规模、基于区域引导的3D胸部CT解释数据集。它利用最新的通用分割和大语言模型扩展了原始数据集(超过25,692个非对比3D胸部CT体积和来自20,000名患者的报告),增加了器官级别分割掩码、多粒度地面报告和地面视觉问答对。这些特性使得RadGenome Chest CT能够显著推动多模态医学基础模型的发展。
RadGenome Chest CT is a comprehensive, large-scale region-guided 3D chest CT interpretation dataset based on CT-RATE. It extends the original dataset (comprising over 25,692 non-contrast 3D chest CT volumes and reports from 20,000 patients) by leveraging state-of-the-art general-purpose segmentation models and large language models, adding organ-level segmentation masks, multi-granularity ground-truth reports, and ground-truth visual question answering pairs. These features enable RadGenome Chest CT to significantly advance the development of multimodal medical foundation models.
创建时间:
2025-11-20
原始信息汇总
RadGenome Chest CT 数据集概述
基本信息
- 数据集名称:RadGenome Chest CT
- 许可证:CC-BY-4.0
- 数据来源:基于CT-RATE数据集扩展
数据集规模
- 原始数据包含25,692个非对比3D胸部CT扫描和报告
- 数据来自20,000名患者
- 包含665,000个多粒度定位报告
- 包含1,300,000个定位视觉问答对
数据构成
配置1:定位报告
- 训练集:dataset/radgenome_files/train_region_report.csv
- 验证集:dataset/radgenome_files/validation_region_report.csv
配置2:定位视觉问答
- 训练集:
- dataset/radgenome_files/train_vqa_abnormality.csv
- dataset/radgenome_files/train_vqa_location.csv
- dataset/radgenome_files/train_vqa_presence.csv
- dataset/radgenome_files/train_vqa_size.csv
- 验证集:
- dataset/radgenome_files/validation_vqa_abnormality.csv
- dataset/radgenome_files/validation_vqa_location.csv
- dataset/radgenome_files/validation_vqa_presence.csv
- dataset/radgenome_files/validation_vqa_size.csv
配置3:病例级视觉问答
- 训练集:dataset/radgenome_files/train_case_disorders.csv
- 验证集:dataset/radgenome_files/calidation_case_disorders.csv
核心特征
- 器官级分割掩码覆盖197个类别
- 报告句子与CT扫描解剖区域通过分割掩码关联
- 视觉问答对均与参考分割掩码链接
- 验证集数据经过人工验证确保质量
使用条款
- 仅限于学术、研究和教育用途
- 禁止商业利用
- 需遵守数据保护和隐私法规
- 禁止重新识别个体信息
- 禁止数据重新分发
- 使用时需引用相关论文
相关论文
- 数据集论文:https://arxiv.org/pdf/2404.16754
- CT-CLIP论文:https://arxiv.org/abs/2403.17834
搜集汇总
数据集介绍

构建方式
在医学影像分析领域,RadGenome-Chest CT数据集通过整合通用分割模型与大型语言模型的技术优势,对源自CT-RATE的25,692例三维胸部CT扫描数据进行了系统性扩展。该构建过程实现了器官级别的精细标注,涵盖197个解剖类别,并生成665,000条基于区域定位的报告文本,每个句子均与对应CT体积的解剖区域分割掩码相关联。此外,通过人工验证流程确保了验证集中所有定位报告与视觉问答数据的标注质量,形成了兼具结构性与可靠性的多模态医学数据资源。
使用方法
该数据集支持通过三种配置模式进行调用:定位报告配置提供训练与验证集的区域文本关联数据,定位视觉问答配置包含异常性、位置、存在性与尺寸四类问题的多文件结构化数据,案例级视觉问答配置则聚焦疾病层面的诊断分析。研究者需遵循学术用途规范,在模型训练中利用分割区域生成文本的任务设计,通过关联掩码与报告语句的对应关系,推动医学视觉语言模型的推理能力发展。
背景与挑战
背景概述
在医学人工智能领域,构建通用基础模型已成为前沿研究方向。RadGenome-Chest CT数据集应运而生,由研究团队基于CT-RATE数据集扩展开发,聚焦于三维胸部CT影像的多模态理解。该数据集整合了25692例非对比增强胸部CT容积数据与对应报告,覆盖两万名患者群体,通过先进的分割模型与语言模型技术,实现了器官级分割掩码与文本报告的跨模态关联。其核心价值在于推动医学影像分析从单一分类任务向可解释性区域引导的视觉语言推理演进,为构建具备临床推理能力的医学基础模型提供了关键数据支撑。
当前挑战
该数据集致力于解决医学影像领域视觉语言联合建模的核心难题:如何建立解剖结构与文本描述的精确对应关系。构建过程中面临双重挑战:其一是跨模态对齐的技术复杂性,需通过197类器官分割掩码实现665万条报告语句与三维影像区域的细粒度关联;其二是数据质量控制的工程挑战,验证集内所有接地报告与视觉问答对均需经过人工核验,确保解剖定位与文本描述的逻辑一致性。这些挑战凸显了医学多模态数据标准化建设的核心瓶颈。
常用场景
经典使用场景
在医学影像分析领域,RadGenome-Chest CT数据集被广泛应用于构建多模态基础模型。该数据集通过结合器官级分割掩码与文本报告,支持模型学习从三维CT图像中提取视觉特征并生成对应医学描述。典型应用包括训练模型根据特定解剖区域生成诊断文本,实现影像与语言的无缝对齐,为自动化医疗报告撰写提供可靠数据支撑。
解决学术问题
该数据集有效解决了医学影像分析中视觉与语言模态对齐的学术难题。通过提供665K细粒度标注报告和130万视觉问答对,研究者能够开发出可解释性更强的诊断模型。其区域引导的标注机制突破了传统数据集中视觉证据与文本描述脱节的局限,为验证模型决策过程提供了可追溯的解剖学依据,显著推进了可信医学人工智能的发展。
实际应用
在临床实践场景中,该数据集支撑的模型可辅助放射科医生进行胸部CT影像解读。通过实时生成基于解剖区域的异常描述,有效缩短报告撰写时间并减少人为疏忽。其多粒度标注体系还能用于构建智能教学系统,帮助医学生理解影像特征与临床诊断的关联,提升医疗培训效率与质量。
数据集最近研究
最新研究方向
在医学影像人工智能领域,RadGenome-Chest CT数据集正推动多模态基础模型的范式革新。该数据集通过整合器官级分割掩码与语义报告,构建了具有空间定位能力的视觉语言理解框架。当前研究聚焦于区域引导的三维CT解析技术,将解剖结构与文本描述动态关联,显著提升了模型对肺部病变的可解释性诊断能力。随着通用医学大模型的发展,该数据集通过提供细粒度视觉线索与验证问答对,已成为探索自主影像诊断系统的关键基础设施,其多粒度标注体系为突破传统分类模型的局限性提供了全新路径。
以上内容由遇见数据集搜集并总结生成



