five

ReXGroundingCT

收藏
arXiv2025-07-30 更新2025-07-31 收录
下载链接:
https://huggingface.co/datasets/rajpurkarlab/ReXGroundingCT
下载链接
链接失效反馈
官方服务:
资源简介:
ReXGroundingCT数据集是第一个公开可用的将自由文本放射学发现与3D胸部CT扫描中的像素级分割相链接的手工注释数据集。该数据集包含3,142个非对比胸部CT扫描,并与来自CT-RATE数据集的标准放射学报告配对。使用系统化的三阶段流程,GPT-4被用于提取阳性肺和胸膜发现,然后由专家注释者手动分割。总共注释了8,028个发现,跨越16,301个实体,并由有执业资格的放射科医生进行质量控制。大约79%的发现是焦点异常,而21%是非焦点异常。训练集包括每个发现的最多三个代表性分割,而验证集和测试集包含每个发现实体的详尽标签。ReXGroundingCT为开发和研究胸部CT中的句子级接地和自由文本医学分割模型建立了新的基准。

The ReXGroundingCT dataset is the first publicly available manually annotated dataset that links free-text radiological findings to pixel-level segmentations in 3D chest CT scans. This dataset contains 3,142 non-contrast chest CT scans, paired with standard radiological reports sourced from the CT-RATE dataset. Using a systematic three-stage workflow, GPT-4 was employed to extract positive pulmonary and pleural findings, which were then manually segmented by expert annotators. A total of 8,028 findings spanning 16,301 entities were annotated and underwent quality control by board-certified radiologists. Approximately 79% of these findings are focal abnormalities, while 21% are non-focal abnormalities. The training set includes up to three representative segmentations per finding, while the validation and test sets contain exhaustive labels for each finding entity. ReXGroundingCT establishes a new benchmark for developing and researching sentence-level grounding and free-text medical segmentation models in chest CT.
提供机构:
哈佛医学院生物医学信息学系
创建时间:
2025-07-30
搜集汇总
数据集介绍
main_image_url
构建方式
ReXGroundingCT数据集的构建采用了一种系统化的多阶段流程。该数据集基于CT-RATE数据集,从中筛选了3,142例非对比胸部CT扫描,并配对了标准化的放射学报告。通过GPT-4对原始报告进行重写,以统一术语和表达方式,随后利用GPT-4提取肺部及胸膜异常发现,并由专业标注人员和医学学生在放射科医师监督下完成像素级3D分割标注。标注过程中排除了无法定位或弥漫性异常,最终保留了8,028个异常发现的16,301个实体标注。
特点
ReXGroundingCT是首个将自由文本放射学发现与3D胸部CT扫描中的像素级分割相连接的手动标注公开数据集。其独特之处在于捕获了临床语言的丰富表达,并将其与精确的空间定位相结合。数据集包含79%的局灶性异常(如结节)和21%的非局灶性异常(如肺气肿),覆盖14种病理类别。所有标注均经过放射科医师的质量控制,测试集和验证集采用全标注策略,为医学AI提供了细粒度的空间推理基准。
使用方法
该数据集支持两大核心任务:自由文本发现的3D空间定位(Finding Grounding)和基于分割的放射学报告生成(Grounded Report Generation)。研究人员可通过Hugging Face平台获取数据,利用其提供的3D分割掩模与对应文本描述,开发能够理解临床语言空间语义的模型。训练时需注意训练集采用代表性标注(每发现最多3个实例),而验证/测试集包含全标注,适合弱监督学习或模型微调。
背景与挑战
背景概述
ReXGroundingCT是由哈佛医学院生物医学信息学系等多家机构联合推出的首个公开可用的三维胸部CT数据集,旨在将自由文本放射学报告与像素级分割标注进行关联。该数据集于2025年7月发布,核心研究团队包括Mohammed Baharoon、Pranav Rajpurkar等跨学科专家。其创新性在于突破了传统结构化标签的局限,通过人工标注实现了临床自由文本描述与三维空间定位的精准映射,为医学人工智能领域中的放射学报告生成系统提供了关键支持。数据集包含3,142例非增强胸部CT扫描,标注了8,028个发现项,覆盖16,301个实体,标志着医学影像与自然语言处理交叉研究的重要进展。
当前挑战
该数据集主要面临两大挑战:领域问题方面,需解决自由文本放射学描述与三维空间定位的复杂对应关系,如将"左肺下叶3毫米结节"等非结构化描述准确映射至CT扫描中的具体位置;构建过程方面,需克服多语言报告标准化、专家标注一致性控制等难题。具体表现为:1) 原始土耳其语报告需转化为标准化英语表述;2) 弥漫性病变的边界界定存在主观差异;3) 标注工作需平衡专业放射科医生与医学生标注员的质量差异;4) 训练集采用代表性实例标注策略可能影响模型学习的完整性。这些挑战突显了医学影像与自然语言跨模态对齐的特殊复杂性。
常用场景
经典使用场景
在医学影像分析领域,ReXGroundingCT数据集为研究者提供了将自由文本放射学报告与三维胸部CT扫描中的像素级分割相连接的独特资源。其经典使用场景包括开发基于自然语言处理的医学影像分析模型,这些模型能够理解并定位放射科医生在报告中描述的复杂病变特征。例如,模型可以通过学习报告中“左下叶3毫米结节”等描述,自动在CT扫描的相应位置生成精确的三维分割掩模。这种能力对于构建可解释的医学AI系统至关重要,能够帮助临床医生快速验证模型输出的准确性。
衍生相关工作
该数据集已经启发了一系列医学AI领域的创新研究,特别是在多模态医学理解方向。基于ReXGroundingCT的典型工作包括:1) 三维医学影像的句子级接地模型,如扩展Transformer架构处理体积数据与文本的对齐;2) 可解释的放射学报告生成系统,其生成的描述包含可验证的空间参考;3) 弱监督分割算法,利用不完整标注学习全空间表征。相关研究还推动了医学视觉-语言预训练技术的发展,为胸部CT的通用基础模型提供了重要训练资源。
数据集最近研究
最新研究方向
在医学影像与自然语言处理的交叉领域,ReXGroundingCT数据集正推动着三维胸部CT扫描中自由文本报告与像素级分割的前沿研究。该数据集通过将非结构化的放射学描述与精确的三维空间定位相结合,为基于解剖学基础的可解释医疗AI系统提供了关键支持。当前研究热点集中在两个方向:一是开发能够理解复杂临床语言并实现句子级三维定位的深度学习模型,这需要模型同时具备自然语言理解和三维视觉推理能力;二是探索基于此数据集的接地式放射报告生成系统,旨在产生带有空间参考的自动化报告,这对改善医患沟通和临床决策流程具有重要意义。随着多模态大语言模型在医疗领域的渗透,该数据集为验证模型在真实临床场景中的空间推理能力提供了重要基准。
相关研究论文
  • 1
    ReXGroundingCT: A 3D Chest CT Dataset for Segmentation of Findings from Free-Text Reports哈佛医学院生物医学信息学系 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作