RadRBench-CXR
收藏arXiv2025-04-30 更新2025-05-08 收录
下载链接:
https://github.com/LiangChengBupt/ChesX-Reasoner
下载链接
链接失效反馈官方服务:
资源简介:
RadRBench-CXR是一个放射学诊断的视觉语言推理基准,包含59K个视觉问答样本,每个样本都包含从对应临床报告中挖掘的301K个临床验证的推理步骤。数据集旨在评估模型的推理能力,包括推理的真实性、完整性和有效性。RadRBench-CXR数据集为医学推理的多模态大型语言模型提供了全面的基准,有助于推动医学推理领域的研究。
RadRBench-CXR is a radiological diagnostic visual-language reasoning benchmark. It contains 59K visual question answering (VQA) samples, each paired with 301K clinically validated reasoning steps mined from corresponding clinical reports. This benchmark aims to evaluate models' reasoning capabilities, including the fidelity, completeness, and validity of their reasoning. The RadRBench-CXR dataset provides a comprehensive benchmark for multimodal large language models in medical reasoning, which helps advance research in the medical reasoning field.
提供机构:
上海交通大学, 上海, 中国; 上海人工智能实验室, 上海, 中国
创建时间:
2025-04-30
搜集汇总
数据集介绍

构建方式
RadRBench-CXR数据集的构建依托于临床放射学报告的丰富信息,通过多阶段流程实现高质量推理链的提取。研究团队首先从MIMIC-CXR、CheXpert和MS-CXR-T三大公开数据集中收集了59K视觉问答样本,并利用GPT-4o自动化工具对临床报告进行结构化处理。该流程包含三个关键步骤:基于印象生成多样化问答对,从报告中提取临床相关观察结果作为推理过程,以及通过语言模型优化逻辑链形成完整的临床推理路径。这种从真实临床文本直接挖掘推理监督信号的方法,既保证了数据的可扩展性,又确保了医学事实的准确性。
特点
作为首个专注于胸部X光诊断推理的视觉语言基准,RadRBench-CXR的核心特征体现在其多维度的临床验证体系。数据集包含301K经过严格临床验证的推理步骤,覆盖五种诊断任务类型,包括二元疾病诊断、单病种诊断等复杂场景。其独创的RadRScore评估体系从事实性、完整性和有效性三个维度量化推理质量,其中事实性评分达到0.82,显著优于通用大模型的表现。数据平衡策略确保最高频疾病样本量不超过最低频疾病的两倍,有效避免了模型偏差。所有推理链均经过基于临床报告的自动过滤,剔除事实性评分低于1的样本,保证了数据的临床可靠性。
使用方法
该数据集支持端到端的医学推理模型开发与评估流程。研究人员可采用两阶段训练框架:首先利用包含答案和推理链的样本进行监督微调,随后通过强化学习结合过程奖励进一步优化。评估阶段需使用RadRScore指标体系,通过GPT-4o提取临床实体进行三维度量化分析。对于开放生成类任务(如异常检测),建议配合RaTEScore指标使用。数据集特别设计了双重指令格式,支持带思维链提示的推理模式和直接应答模式,用户可通过<think></think>和<answer></answer>标签结构获取不同粒度的模型输出。跨中心验证时需注意RSNA和SIIM子集缺乏原始临床报告的特点。
背景与挑战
背景概述
RadRBench-CXR数据集由上海交通大学和上海人工智能实验室的研究团队于2025年创建,旨在推动放射学基础模型在医学推理领域的发展。该数据集的核心研究问题是通过从临床报告中提取和精炼推理链,构建一个包含59K视觉问答样本和301K临床验证推理步骤的大规模数据集,以增强多模态大语言模型(MLLMs)在胸部X光诊断中的推理能力。RadRBench-CXR的推出显著提升了医学AI模型在诊断准确性和推理能力方面的表现,为医学推理MLLMs的研究提供了重要资源。
当前挑战
RadRBench-CXR数据集在构建过程中面临多重挑战。首先,在领域问题方面,数据集需解决医学影像分析的复杂推理任务,如疾病诊断、异常检测和时间序列分析,这些任务要求模型具备高度的临床准确性和逻辑一致性。其次,在构建过程中,研究团队需从临床报告中提取高质量的推理链,并确保其与医学事实的一致性。此外,数据集的规模化和质量控制也是一大挑战,需通过自动化工具(如GPT-4o)和严格的筛选机制(如基于RadRScore的过滤)来保证数据的可靠性和多样性。
常用场景
经典使用场景
RadRBench-CXR数据集在医学影像分析领域具有广泛的应用,特别是在胸部X光片的诊断和推理任务中。该数据集通过结合视觉问答(VQA)样本和临床报告中的推理链,为研究人员提供了一个全面的基准测试平台。其经典使用场景包括多模态大语言模型(MLLMs)的训练和评估,尤其是在需要复杂推理能力的医学诊断任务中。例如,研究人员可以利用该数据集训练模型进行肺部疾病的自动诊断,如肺不张、肺炎等。
实际应用
在实际应用中,RadRBench-CXR数据集为临床诊断支持系统提供了强大的数据基础。例如,医院可以利用基于该数据集训练的模型辅助放射科医生进行胸部X光片的快速诊断,提高诊断效率和准确性。此外,该数据集还可用于医学教育,帮助学生和实习医生通过分析模型生成的推理过程,学习专业诊断思路。其开放共享的特性也促进了全球医学AI研究的合作与发展。
衍生相关工作
RadRBench-CXR数据集衍生了一系列经典研究工作,特别是在医学多模态大语言模型领域。例如,基于该数据集开发的ChestX-Reasoner模型在诊断准确性和推理能力上显著优于现有医学和通用领域的MLLMs。此外,该数据集还启发了其他医学推理任务的研究,如Med-R1和MedVLM-R1等模型,这些工作进一步探索了强化学习在医学推理中的应用。数据集的开源也促进了更多研究者加入医学AI的探索,推动了该领域的快速发展。
以上内容由遇见数据集搜集并总结生成



