CXRTrek
收藏arXiv2025-05-29 更新2025-05-31 收录
下载链接:
https://github.com/guanjinquan/CXRTrek
下载链接
链接失效反馈官方服务:
资源简介:
CXRTrek 是一个用于胸部 X 射线解释的多阶段视觉问答 (VQA) 数据集,它模拟了放射科医生在实际临床环境中使用的诊断推理过程。该数据集涵盖了 8 个连续的诊断阶段,包括 428,966 个样本和超过 1,100 万个问答 (Q&A) 对,每个样本平均有 26.29 个 Q&A 对。数据集的构建基于 MIMIC-CXR 和 CheXpert-plus 两个大型数据集,并通过专家知识和机器学习模型相结合的方式进行标注。CXRTrek 数据集旨在解决现有医学 AI 模型在临床推理方面的不足,通过模拟放射科医生的诊断推理流程,为医学影像分析提供更深入的语义理解和可追溯的决策支持。
CXRTrek is a multi-stage visual question answering (VQA) dataset for chest X-ray interpretation, which simulates the diagnostic reasoning workflow used by radiologists in real clinical settings. This dataset covers 8 consecutive diagnostic stages, containing 428,966 samples and over 11 million question-answer (Q&A) pairs, with an average of 26.29 Q&A pairs per sample. The dataset is constructed based on two large-scale datasets, MIMIC-CXR and CheXpert-plus, and annotated via a combination of expert knowledge and machine learning models. The CXRTrek dataset aims to address the shortcomings of current medical AI models in clinical reasoning, and provides deeper semantic understanding and traceable decision support for medical image analysis by simulating the diagnostic reasoning process of radiologists.
提供机构:
华南理工大学软件工程系, 阿卜杜拉国王科技大学计算机视觉系, 阿德莱德大学机器学习研究所, 弗林德斯大学健康与医学研究所
创建时间:
2025-05-29
原始信息汇总
数据集概述:CXRTrek
基本信息
- 数据集名称:CXRTrek
- 关联项目:Interpreting Chest X-rays Like a Radiologist: A Clinical Reasoning Benchmark
- 开发状态:即将发布(coming soon)
数据集描述
- 数据类型:胸部X光片及相关临床推理数据
- 关联模型:Chest X-ray Visual Large Language Model (CXRTrekNet)
数据特点
- 用途:用于临床推理基准测试
- 目标:模拟放射科医生对胸部X光片的解读过程
备注
- 当前状态提示:数据集和关联模型CXRTrekNet均处于"即将发布"状态
搜集汇总
数据集介绍

构建方式
CXRTrek数据集通过整合MIMIC-CXR和CheXpert-plus两大胸部X光影像数据库,采用多阶段标注框架构建而成。研究团队首先基于放射学指南和临床专家咨询,确立了模拟放射科医生诊断推理流程的8个核心阶段。通过混合标注策略(结合规则方法、LLM输出和外部数据集标注),从影像报告中提取临床实体及其属性,并生成阶段特异性问答对。最终构建的428,966个样本包含超过1100万组问答对,平均每个样本包含26.29组问答,覆盖影像质量验证、异常发现识别、属性描述、影像比较等完整诊断流程。
特点
CXRTrek的创新性体现在其层次化临床推理架构上,首次系统性地将胸部X光解读分解为8个渐进式诊断阶段。数据集不仅包含常规的视觉问答对,还创新性地整合了四种应答格式(开放式、封闭式、选择题和检测框标注),并建立了阶段间的有向无环图依赖关系。特别值得注意的是,其平均26.29组问答/样本的密度远超现有医学VQA数据集,且11.7%的问答涉及跨阶段上下文推理,能更真实地模拟放射科医生的渐进式分析过程。每个诊断阶段的问题设计均植根于实际临床场景,如Stage-5的影像对比分析直接关联随访检查的临床需求。
使用方法
使用CXRTrek时需遵循其阶段化推理架构,按预设临床流程(影像验证→异常识别→属性分析→关系建模→影像对比→风险预测→诊断建议→报告生成)顺序执行问答任务。研究人员可通过两种模式利用该数据集:1)分阶段训练策略,显式建模阶段间依赖关系;2)端到端评估模式,测试模型在完整诊断链中的表现。对于检测类问题需采用交并比(IoU)指标,而文本类回答推荐使用BERTScore评估。该数据集特别适合开发具有临床推理能力的多模态模型,其内置的阶段标记和上下文缓存机制可直接支持渐进式推理任务的实现。
背景与挑战
背景概述
CXRTrek是由华南理工大学、阿德莱德大学等机构的研究团队于2025年推出的胸部X光多阶段视觉问答数据集。该数据集创新性地模拟了放射科医师的8阶段临床推理流程,包含42.8万样本和超过1100万问答对,首次实现了对胸部影像诊断推理过程的系统性建模。作为医学视觉-语言模型领域的重要基准,CXRTrek通过结构化分解影像解读流程,解决了传统医学AI模型存在的临床场景错位、上下文推理缺失等关键问题,为提升医疗AI的可解释性和推理能力提供了新的研究范式。
当前挑战
构建CXRTrek面临双重挑战:在领域问题层面,需突破传统单阶段映射范式的局限,解决多阶段临床推理的建模难题,包括影像质量验证、异常发现识别、属性特征描述等8个诊断环节的语义关联;在构建过程层面,需处理大规模医学报告的结构化解析,通过混合标注策略整合规则方法、大语言模型输出和外部数据集标注,确保11百万问答对的语义一致性和临床合理性。此外,数据集的构建还需克服医学实体提取中的幻觉问题,建立包含5000余项临床术语的专业词典以保证标注质量。
常用场景
经典使用场景
CXRTrek数据集在医学影像分析领域具有广泛的应用价值,特别是在胸部X光片(CXR)的多阶段视觉问答(VQA)任务中。该数据集通过模拟放射科医师的临床推理流程,涵盖了从图像验证到诊断建议的8个连续诊断阶段,为AI模型提供了丰富的训练和评估场景。其经典使用场景包括多阶段视觉问答、异常检测、疾病识别以及报告生成等任务,能够有效支持模型进行逐步推理和上下文感知的诊断分析。
解决学术问题
CXRTrek数据集解决了医学AI研究中常见的多个学术问题,包括临床推理流程的建模不足、上下文信息缺失以及错误追踪困难等。通过构建多阶段的诊断问答对,该数据集首次在CXR解释中显式模拟了放射科医师的真实诊断推理过程。其意义在于填补了现有医学AI模型在复杂临床场景中的推理能力空白,提升了模型的可解释性和泛化能力,为医学视觉语言大模型(VLLM)的研究提供了重要的基准和训练资源。
衍生相关工作
CXRTrek数据集衍生了一系列相关经典工作,其中最突出的是基于该数据集提出的CXRTrekNet模型。该模型通过将临床推理流程嵌入VLLM框架,显著提升了模型在分类、检测、视觉问答和报告生成等任务上的性能。此外,该数据集还启发了多个后续研究,包括改进的医学VQA模型、跨模态对齐方法以及基于多阶段推理的医学图像分析系统,推动了医学AI领域的发展。
以上内容由遇见数据集搜集并总结生成



